COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Training Stack llm-era 2018 concept

Masked Language Modeling (MLM)

Objetivo de pré-treino em que 15% dos tokens são mascarados e o modelo aprende a prevê-los — coração do BERT.

RESUMO

Devlin et al. (2018) propuseram MLM no paper do BERT como alternativa bidirecional ao causal LM do GPT. O modelo vê contexto à esquerda E à direita, o que o torna ótimo para entender (classificação, extração) mas ruim para gerar. Define a divisão encoder-only vs decoder-only.

Tags: pretraining · bert · objective

VEJA TAMBÉM