COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
LLM Era llm-era 2018 system

GPT-1 (2018)

Primeiro 'Generative Pre-trained Transformer' — provou que pre-training + fine-tuning escala.

RESUMO

Radford et al., OpenAI. 117M params. Decoder-only. Estabeleceu o paradigma que GPT-2/3/4 escalariam.

Tags: decoder-only · autoregressive · pre-training

VEJA TAMBÉM