LLM Erallm-era2018system

BERT (2018)

Google, encoder-only Transformer treinado com masked language modeling — virou backbone de toda busca.

O quê

BERT (Bidirectional Encoder Representations from Transformers) é o modelo de linguagem encoder-only publicado pelo time de Jacob Devlin no Google AI Language em outubro de 2018 (paper em NAACL 2019). Foi a primeira aplicação de Transformers (Vaswani et al., 2017) a language understanding em escala — não geração, mas compreensão. Em meses, virou o backbone de quase toda tarefa de NLP não-generativa: classificação, named entity recognition, question answering extrativo, embeddings semânticos, busca.

Em outubro de 2019, o Google anunciou que BERT estava integrado à Google Search para entender melhor consultas em inglês — afetando ~10% de todas as buscas. Foi a maior atualização de Search desde RankBrain (2015).

Em Magik LLM Gathering, BERT é canônico: House Sentinel, faction Citadel, arquétipo do indexador — quem lê o contexto inteiro antes de decidir o que cada palavra significa.

Como funciona

BERT é um encoder Transformer — usa apenas a metade “encoder” da arquitetura original de Attention Is All You Need (2017). Característica definidora: cada token vê o contexto bidirecionalmente (à esquerda E à direita), em contraste com GPT que é autoregressivo (só vê o que veio antes).

Duas tarefas de pretraining auto-supervisionado em grande corpus (BookCorpus + Wikipedia em inglês, ~3.3B palavras):

Masked Language Modeling (MLM) — durante treinamento, 15% dos tokens da entrada são mascarados (substituídos por [MASK]). O modelo precisa prever o token original olhando o contexto dos dois lados. Exemplo:

“O gato sentou no [MASK] da sala.” Modelo deve prever tapete, sofá, chão com probabilidades coerentes.
Next Sentence Prediction (NSP) — dadas duas sentenças A e B, o modelo prevê se B veio logo depois de A no corpus original ou se é aleatória. Objetivo: aprender relações inter-sentenciais. Estudos posteriores (RoBERTa, 2019) mostraram que NSP não ajuda e pode até atrapalhar [VERIFICAR — Liu et al.]. Removida em variantes modernas.

Duas escalas de release:

BERT-Base — 12 camadas, 12 attention heads, 768 dim, 110M parâmetros.
BERT-Large — 24 camadas, 16 heads, 1024 dim, 340M parâmetros.

Uso típico: pega-se BERT pretrained, adiciona-se uma camada de classificação rasa no topo, e fine-tuna-se em dataset rotulado da tarefa (sentiment analysis, NER, paraphrase detection). Esse paradigma pretrain → fine-tune dominou NLP de 2018 a ~2022, até ser parcialmente substituído por prompt engineering em LLMs autoregressivos.

Por que importa

Demonstrou bidirecionalidade. Antes de BERT, ELMo (Peters et al., 2018) usava LSTMs bidirecionais, mas a fusão dos dois lados era rasa. BERT, via attention, fundiu contexto bidirecional desde a primeira camada. Resultado: ganho dramático em GLUE, SQuAD, SWAG — bateu state-of-the-art em 11 benchmarks de NLP simultaneamente. A comunidade percebeu na hora que o jogo havia mudado.

Padronizou o ciclo pretrain-then-fine-tune em NLP. Antes, cada tarefa exigia arquitetura própria (LSTM customizada + features manuais). Depois de BERT, um único modelo pretrained servia para tudo, com fine-tuning leve. Reduziu o atrito de fazer NLP aplicado em ~10×.

Originou uma família. RoBERTa (Meta, 2019, BERT melhor treinado), ALBERT (Google, 2019, com parameter sharing), DistilBERT (Hugging Face, 2019, 40% menor), ELECTRA (Google, 2020, training mais eficiente), DeBERTa (Microsoft, 2020/2021), MPNet, XLM-RoBERTa (multilíngue). A família encoder-only continuou relevante em produção mesmo após LLMs generativos dominarem o hype.

Mudou Google Search. Pana Nayak anunciou em 2019 que BERT estava em produção. A diferença: queries longas e conversacionais (“can you get medicine for someone pharmacy”) — onde RankBrain falhava por tratar palavras isoladamente — passaram a ser entendidas pela estrutura sintática completa. Em 2020, BERT estava em buscas em ~70 idiomas.

Base de embedding semântico moderno. Sentence-BERT (Reimers & Gurevych, 2019) adaptou BERT para gerar embeddings de sentenças úteis em busca semântica. Esse paradigma é a fundação de praticamente todos os vector DBs e sistemas de RAG até hoje — ada-002 da OpenAI, voyage-3, gemini-embedding, todos são herdeiros diretos do approach BERT.

Estado em 2026

Continua workhorse em produção. Onde latência e custo importam mais que generation quality — moderação de conteúdo, search ranking, intent classification, NER em pipelines empresariais — variantes de BERT (DeBERTa-v3, ModernBERT-2024) rodam em escala massiva.
Encoder-only renaissance: ModernBERT (Answer.AI + LightOn, dezembro 2024) modernizou a arquitetura BERT com 8k context, Flash Attention, GeGLU. Mostrou que encoder-only ainda tem vida.
Em embeddings, ainda imbatível por custo: gerar um embedding de 768-dim com DistilBERT custa frações de centavo; com Claude/GPT custa ordens de magnitude mais.
Google Search continua usando descendentes de BERT, mais MUM (multitask unified model, 2021) e LLM-based generative results (2024+).
Em Magik LLM Gathering, BERT é personagem central do set 1, posicionado como House Sentinel (faction Citadel) — leitor silencioso, indexador metódico, peça-chave de qualquer formação Citadel.

Tratamento de carta — proposta

BERT, The Indexer Modelo · Citadel/Sentinel · custo

2/5. Keywords: Encoder, Bidirectional.

Masked Reading: Quando este Modelo entra em jogo, revele a mão de cada oponente. Escolha 1 carta de cada uma — você passa a saber permanentemente quando ela é jogada.

Pretrain → Fine-tune: Uma vez por turno, você pode pagar 2 ⚡ para dar a um Modelo seu uma keyword temporária extraída de qualquer Conceito em jogo.

“Eu não gero. Eu compreendo.”

A primeira mecânica encena MLM e bidirecionalidade — BERT “vê” toda a mão do oponente (contexto à esquerda e à direita). A segunda é o ciclo pretrain → fine-tune: pega-se um modelo genérico e adapta-se para tarefa específica via “fine-tuning” com keyword.

Veja também

Attention Is All You Need (2017) · Transformer · Masked Language Modeling (MLM) · Karen Spärck Jones

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT 2019.
Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.
Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692.
Nayak, P. (2019). Understanding searches better than ever before. Google Search Blog (25 out 2019).