COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Inference & Tokens llm-era 2016 technique

Tokenization

Quebrar texto em unidades discretas (tokens) que o modelo processa. Não são exatamente palavras.

RESUMO

BPE (Byte-Pair Encoding), WordPiece, SentencePiece. tiktoken (OpenAI) e Llama tokenizer são padrões. Um token ≈ 4 chars em inglês, ~2 chars em português, 1 em chinês. Por que isso importa: preço e contexto contam tokens, não palavras.

Tags: preprocessing · bpe

VEJA TAMBÉM