GPT-1 (2018)
Primeiro 'Generative Pre-trained Transformer' — provou que pre-training + fine-tuning escala.
RESUMO
Radford et al., OpenAI. 117M params. Decoder-only. Estabeleceu o paradigma que GPT-2/3/4 escalariam.
Tags: decoder-only · autoregressive · pre-training
VEJA TAMBÉM