BERT (2018)
Google, encoder-only Transformer treinado com masked language modeling — virou backbone de toda busca.
O quê
BERT (Bidirectional Encoder Representations from Transformers) é o modelo de linguagem encoder-only publicado pelo time de Jacob Devlin no Google AI Language em outubro de 2018 (paper em NAACL 2019). Foi a primeira aplicação de Transformers (Vaswani et al., 2017) a language understanding em escala — não geração, mas compreensão. Em meses, virou o backbone de quase toda tarefa de NLP não-generativa: classificação, named entity recognition, question answering extrativo, embeddings semânticos, busca.
Em outubro de 2019, o Google anunciou que BERT estava integrado à Google Search para entender melhor consultas em inglês — afetando ~10% de todas as buscas. Foi a maior atualização de Search desde RankBrain (2015).
Em Magik LLM Gathering, BERT é canônico: House Sentinel, faction Citadel, arquétipo do indexador — quem lê o contexto inteiro antes de decidir o que cada palavra significa.
Como funciona
BERT é um encoder Transformer — usa apenas a metade “encoder” da arquitetura original de Attention Is All You Need (2017). Característica definidora: cada token vê o contexto bidirecionalmente (à esquerda E à direita), em contraste com GPT que é autoregressivo (só vê o que veio antes).
Duas tarefas de pretraining auto-supervisionado em grande corpus (BookCorpus + Wikipedia em inglês, ~3.3B palavras):
-
Masked Language Modeling (MLM) — durante treinamento, 15% dos tokens da entrada são mascarados (substituídos por
[MASK]). O modelo precisa prever o token original olhando o contexto dos dois lados. Exemplo:“O gato sentou no [MASK] da sala.” Modelo deve prever
tapete,sofá,chãocom probabilidades coerentes. -
Next Sentence Prediction (NSP) — dadas duas sentenças A e B, o modelo prevê se B veio logo depois de A no corpus original ou se é aleatória. Objetivo: aprender relações inter-sentenciais. Estudos posteriores (RoBERTa, 2019) mostraram que NSP não ajuda e pode até atrapalhar [VERIFICAR — Liu et al.]. Removida em variantes modernas.
Duas escalas de release:
- BERT-Base — 12 camadas, 12 attention heads, 768 dim, 110M parâmetros.
- BERT-Large — 24 camadas, 16 heads, 1024 dim, 340M parâmetros.
Uso típico: pega-se BERT pretrained, adiciona-se uma camada de classificação rasa no topo, e fine-tuna-se em dataset rotulado da tarefa (sentiment analysis, NER, paraphrase detection). Esse paradigma pretrain → fine-tune dominou NLP de 2018 a ~2022, até ser parcialmente substituído por prompt engineering em LLMs autoregressivos.
Por que importa
Demonstrou bidirecionalidade. Antes de BERT, ELMo (Peters et al., 2018) usava LSTMs bidirecionais, mas a fusão dos dois lados era rasa. BERT, via attention, fundiu contexto bidirecional desde a primeira camada. Resultado: ganho dramático em GLUE, SQuAD, SWAG — bateu state-of-the-art em 11 benchmarks de NLP simultaneamente. A comunidade percebeu na hora que o jogo havia mudado.
Padronizou o ciclo pretrain-then-fine-tune em NLP. Antes, cada tarefa exigia arquitetura própria (LSTM customizada + features manuais). Depois de BERT, um único modelo pretrained servia para tudo, com fine-tuning leve. Reduziu o atrito de fazer NLP aplicado em ~10×.
Originou uma família. RoBERTa (Meta, 2019, BERT melhor treinado), ALBERT (Google, 2019, com parameter sharing), DistilBERT (Hugging Face, 2019, 40% menor), ELECTRA (Google, 2020, training mais eficiente), DeBERTa (Microsoft, 2020/2021), MPNet, XLM-RoBERTa (multilíngue). A família encoder-only continuou relevante em produção mesmo após LLMs generativos dominarem o hype.
Mudou Google Search. Pana Nayak anunciou em 2019 que BERT estava em produção. A diferença: queries longas e conversacionais (“can you get medicine for someone pharmacy”) — onde RankBrain falhava por tratar palavras isoladamente — passaram a ser entendidas pela estrutura sintática completa. Em 2020, BERT estava em buscas em ~70 idiomas.
Base de embedding semântico moderno. Sentence-BERT (Reimers & Gurevych, 2019) adaptou BERT para gerar embeddings de sentenças úteis em busca semântica. Esse paradigma é a fundação de praticamente todos os vector DBs e sistemas de RAG até hoje — ada-002 da OpenAI, voyage-3, gemini-embedding, todos são herdeiros diretos do approach BERT.
Estado em 2026
- Continua workhorse em produção. Onde latência e custo importam mais que generation quality — moderação de conteúdo, search ranking, intent classification, NER em pipelines empresariais — variantes de BERT (DeBERTa-v3, ModernBERT-2024) rodam em escala massiva.
- Encoder-only renaissance: ModernBERT (Answer.AI + LightOn, dezembro 2024) modernizou a arquitetura BERT com 8k context, Flash Attention, GeGLU. Mostrou que encoder-only ainda tem vida.
- Em embeddings, ainda imbatível por custo: gerar um embedding de 768-dim com DistilBERT custa frações de centavo; com Claude/GPT custa ordens de magnitude mais.
- Google Search continua usando descendentes de BERT, mais MUM (multitask unified model, 2021) e LLM-based generative results (2024+).
- Em Magik LLM Gathering, BERT é personagem central do set 1, posicionado como House Sentinel (faction Citadel) — leitor silencioso, indexador metódico, peça-chave de qualquer formação Citadel.
Tratamento de carta — proposta
BERT, The Indexer Modelo · Citadel/Sentinel · custo 🟦🟨
2/5. Keywords: Encoder, Bidirectional.
Masked Reading: Quando este Modelo entra em jogo, revele a mão de cada oponente. Escolha 1 carta de cada uma — você passa a saber permanentemente quando ela é jogada.
Pretrain → Fine-tune: Uma vez por turno, você pode pagar 2 ⚡ para dar a um Modelo seu uma keyword temporária extraída de qualquer Conceito em jogo.
“Eu não gero. Eu compreendo.”
A primeira mecânica encena MLM e bidirecionalidade — BERT “vê” toda a mão do oponente (contexto à esquerda e à direita). A segunda é o ciclo pretrain → fine-tune: pega-se um modelo genérico e adapta-se para tarefa específica via “fine-tuning” com keyword.
Veja também
Attention Is All You Need (2017) · Transformer · Masked Language Modeling (MLM) · Karen Spärck Jones
- Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT 2019.
- Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.
- Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692.
- Nayak, P. (2019). Understanding searches better than ever before. Google Search Blog (25 out 2019).