LLM Era
Modelos generativos de linguagem (2017 → presente)
11 conceitos · ordenados cronologicamente
Attention Is All You Need (2017)
Paper da Google que introduziu o Transformer — eliminou recorrência, atenção pura. Origin point dos LLMs.
BERT (2018)
Google, encoder-only Transformer treinado com masked language modeling — virou backbone de toda busca.
GPT-1 (2018)
Primeiro 'Generative Pre-trained Transformer' — provou que pre-training + fine-tuning escala.
GPT-2 (2019)
1.5B params. OpenAI inicialmente disse 'too dangerous to release' — virou meme histórico.
GPT-3 (2020)
175B params. Provou few-shot learning — o modelo não precisa fine-tune, basta dar exemplos no prompt.
In-Context Learning
Capacidade de LLMs aprenderem padrões de novos tasks apenas vendo exemplos no prompt, sem atualizar pesos.
ChatGPT (2022)
Nov 30, 2022. Atingiu 100M usuários em 2 meses — produto consumer mais rápido a escalar na história.
Claude
Família de LLMs da Anthropic treinada com Constitutional AI, focada em segurança, contexto longo e raciocínio.
o1 / o3 (Reasoning Models)
OpenAI, 2024-2025. Treinados via RL para 'pensar antes de responder' — long chain-of-thought interno.
Phi-3
Família de SLMs da Microsoft que prova que dados de alta qualidade ("textbooks are all you need") batem escala bruta.
DeepSeek R1 (2025)
Janeiro 2025. China replicou o1-level reasoning em open-weights — choque geopolítico imediato.