COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Architectures llm-era 2017 architecture

Transformer

Arquitetura baseada em self-attention. Sem recorrência, paraleliza no GPU, escala lindo.

RESUMO

Encoder-decoder original; hoje LLMs são decoder-only (GPT-family) ou encoder-only (BERT-family). Blocos = self-attention → FFN → layer norm → residual.

Tags: attention · parallelizable

VEJA TAMBÉM