Masked Language Modeling (MLM)
Objetivo de pré-treino em que 15% dos tokens são mascarados e o modelo aprende a prevê-los — coração do BERT.
RESUMO
Devlin et al. (2018) propuseram MLM no paper do BERT como alternativa bidirecional ao causal LM do GPT. O modelo vê contexto à esquerda E à direita, o que o torna ótimo para entender (classificação, extração) mas ruim para gerar. Define a divisão encoder-only vs decoder-only.
Tags: pretraining · bert · objective
VEJA TAMBÉM