Tokenization
Quebrar texto em unidades discretas (tokens) que o modelo processa. Não são exatamente palavras.
RESUMO
BPE (Byte-Pair Encoding), WordPiece, SentencePiece. tiktoken (OpenAI) e Llama tokenizer são padrões. Um token ≈ 4 chars em inglês, ~2 chars em português, 1 em chinês. Por que isso importa: preço e contexto contam tokens, não palavras.
Tags: preprocessing · bpe
VEJA TAMBÉM