Training Stackllm-era2018concept

Masked Language Modeling (MLM)

Objetivo de pré-treino em que 15% dos tokens são mascarados e o modelo aprende a prevê-los — coração do BERT.

O quê

Masked Language Modeling (MLM) é o objetivo de pré-treino em que ~15% dos tokens de uma frase são mascarados e o modelo aprende a prevê-los a partir do contexto dos dois lados (esquerda e direita). Foi proposto por Jacob Devlin e colegas (Google) em outubro de 2018 no paper do BERT, como alternativa bidirecional à modelagem de linguagem causal (unidirecional) usada pelo GPT.

A diferença é fundamental: o GPT prevê o próximo token vendo só o passado (bom para gerar); o BERT prevê tokens ocultos vendo o contexto inteiro (bom para entender). MLM é o que define a divisão clássica entre arquiteturas encoder-only (BERT, compreensão) e decoder-only (GPT, geração).

Como funciona

O esquema de mascaramento

Durante o pré-treino, seleciona-se 15% dos tokens. Desses:

80% são trocados pelo token especial [MASK];
10% são trocados por um token aleatório;
10% são mantidos inalterados.

Esse truque (não mascarar sempre com [MASK]) existe porque o token [MASK] nunca aparece no fine-tuning/uso real — sem o ruído, haveria descasamento entre treino e inferência. O modelo então prevê o token original em cada posição mascarada, minimizando Cross-Entropy (loss).

Bidirecionalidade via self-attention

Porque usa Self-Attention sem máscara causal, cada posição “enxerga” todas as outras. Isso dá representações contextuais ricas — a mesma palavra (“banco”) recebe vetores diferentes conforme o contexto. O BERT original também treinava Next Sentence Prediction (NSP), depois mostrado dispensável pelo RoBERTa (2019), que melhorou resultados treinando só MLM com mais dados e ajustes.

Por que não serve para gerar

O ponto que define a fronteira de uso: como o modelo vê os dois lados ao mesmo tempo, ele não pode gerar texto da esquerda para a direita sem “trapacear” (ver o futuro). MLM é ótimo para codificar uma sequência inteira de uma vez e produzir representações ou rótulos, mas não para produzir uma sequência token a token. Por isso a geração ficou com os modelos causais (Pre-training decoder-only) e a compreensão/representação ficou com os encoders. Variantes posteriores experimentaram objetivos híbridos (span corruption do T5, permuted LM do XLNet) tentando ter os dois benefícios, mas a divisão prática encoder/decoder permaneceu a forma mais limpa de pensar o trade-off.

Por que importa

Destravou compreensão de linguagem. BERT bateu o estado da arte em GLUE, SQuAD e dezenas de tarefas, virando padrão para classificação, NER, busca e ranking.
Consolidou “pré-treinar e ajustar”. Um encoder pré-treinado + uma cabeça pequena fine-tunada resolvia tarefas com pouquíssimos dados rotulados (Transfer Learning).
Definiu uma bifurcação arquitetural. Encoder-only (entender) vs. decoder-only (gerar) vs. encoder-decoder (traduzir) — uma taxonomia que organiza o campo até hoje.
Provou a auto-supervisão em texto. Como o “rótulo” (o token mascarado) vem do próprio texto, não há custo de anotação — o que permitiu escalar pré-treino para corpora gigantes, lição que o Pre-training generativo herdou.

Estado em 2026

A geração generativa (decoder-only) dominou as manchetes, mas MLM não morreu — virou infraestrutura. Modelos de embedding (RAG — Retrieval-Augmented Generation, busca semântica), reranqueadores e classificadores de produção ainda são, em sua maioria, descendentes de BERT/RoBERTa, porque para entender e representar (não gerar) os encoders bidirecionais são mais eficientes e baratos. Linhagens modernas (DeBERTa, e atualizações como ModernBERT) seguem competitivas em tarefas de compreensão. Em resumo: o GPT ganhou o palco, mas MLM segue rodando silenciosamente atrás de cada barra de busca e pipeline de recuperação.

Tratamento de carta — proposta

Masked Inference Operação · Citadel · custo

Fill the Blank. Vire as 2 cartas do topo do seu deck face para baixo; o oponente revela uma delas. Saque a outra (a que ele deixou “mascarada”).

“Esconda quinze por cento. O resto do contexto te dirá o que faltava.”

A mecânica encena MLM: parte da informação é ocultada e o modelo (você) recupera o token escondido usando o contexto visível.

Veja também

BERT (2018) · Transformer · Attention (mechanism) · Self-Attention · Transfer Learning

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Devlin, J. et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019. arXiv:1810.04805.
Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
Liu, Y. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692.