Transformer
Arquitetura baseada em self-attention. Sem recorrência, paraleliza no GPU, escala lindo.
RESUMO
Encoder-decoder original; hoje LLMs são decoder-only (GPT-family) ou encoder-only (BERT-family). Blocos = self-attention → FFN → layer norm → residual.
Tags: attention · parallelizable
VEJA TAMBÉM