COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
The Founders' Era pre-ml 1948 person

Claude Shannon

Pai da Teoria da Informação — quantificou entropia, redundância e capacidade de canal.

O quê

Claude Elwood Shannon (1916–2001) é o pai fundador da teoria da informação. Em 1948, trabalhando no Bell Labs, publicou um único artigo — A Mathematical Theory of Communication — que definiu, de uma vez, três conceitos sem os quais nada do que chamamos “comunicação digital” existiria:

  1. O bit como unidade de informação.
  2. A entropia como medida quantitativa de informação contida em uma fonte.
  3. A capacidade de canal — o limite teórico de quanta informação um canal ruidoso pode transmitir sem erro.

Antes de Shannon, “informação” era um conceito intuitivo, vago, usado em jornalismo e literatura. Depois de Shannon, virou uma grandeza física, mensurável em bits, sujeita a leis matemáticas tão duras quanto a termodinâmica.

Toda compressão (ZIP, MP3, JPEG, H.264), toda correção de erro (CDs, satélites, 5G, Wi-Fi), toda criptografia moderna, todo modelo de linguagem (cross-entropy loss é literalmente a entropia de Shannon aplicada a distribuições previstas vs reais) — descende deste artigo.

Como funciona

O bit

Shannon definiu informação como redução de incerteza. Se você sabia que uma moeda ia cair em cara ou coroa (1 bit de incerteza), e alguém te conta o resultado, você recebeu 1 bit de informação. Se a moeda tivesse 4 faces igualmente prováveis, te contar o resultado seria 2 bits. Em geral, para $n$ eventos igualmente prováveis: $\log_2(n)$ bits.

A palavra “bit” foi cunhada por John Tukey em 1946 [VERIFICAR — alguns historiadores atribuem a Shannon diretamente] e popularizada por Shannon. Antes disso, não havia unidade para “informação”. Por que log base 2? Porque circuitos eletrônicos são binários (Shannon mesmo provou isso em sua tese de mestrado, 1937).

Entropia

Para uma fonte que emite símbolos com probabilidades $p_1, p_2, \dots, p_n$, Shannon definiu a entropia como:

H = -Σ p_i × log₂(p_i)

Essa fórmula tem três propriedades fundamentais:

  • Máxima quando todos os símbolos são equiprováveis.
  • Zero quando um símbolo tem probabilidade 1 (não há incerteza).
  • Aditiva para fontes independentes.

Shannon provou que H é o limite inferior para o número médio de bits necessários para codificar a fonte. Você não pode comprimir melhor que H bits por símbolo, não importa quão esperto seja o codificador. Algoritmos como Huffman (1952), aritmético (1976) e LZ77 (Lempel-Ziv, 1977) chegam arbitrariamente perto desse limite.

Capacidade de canal

O segundo grande resultado: para um canal com ruído, existe uma capacidade C (em bits por símbolo) tal que:

  • Qualquer taxa de transmissão abaixo de C pode ser feita com probabilidade de erro tão pequena quanto se queira (com codificação suficientemente esperta).
  • Qualquer taxa acima de C é impossível confiavelmente.

Esse é o Noisy Channel Coding Theorem. Foi uma surpresa total em 1948: a comunidade engenheira esperava que mais ruído sempre significasse mais erro. Shannon provou que com redundância controlada (códigos corretores), erro zero era teoricamente possível abaixo da capacidade. Códigos modernos (Reed-Solomon, LDPC, Polar) operam dentro de fração de dB da capacidade de Shannon.

Conexão com modelos de linguagem

A mesma fórmula da entropia, aplicada a sequências de tokens:

H(W) = -Σ P(w) × log P(w)

é a cross-entropy que LLMs minimizam durante treino. Quando você lê “Llama 3 atinge 1.85 bits/token em wikitext”, isso é cross-entropy — quão surpreendido o modelo fica, em média, pelo próximo token real, medido em bits de Shannon.

A perplexidade (PPL), métrica clássica de modelos de linguagem, é $2^H$. Perplexidade 8 significa “o modelo está tão incerto quanto se escolhesse uniformemente entre 8 opções para cada token”.

Tokenization (BPE, SentencePiece) é, no fundo, compressão de Shannon aplicada a texto — encontrar uma codificação que minimize bits/símbolo médios.

Por que importa

Shannon converteu engenharia de comunicações em ciência exata. Antes de 1948, decidir entre dois esquemas de modulação era arte engenheirística. Depois de Shannon, ambos os esquemas tinham eficiências computáveis em relação ao limite teórico. Tornou-se possível provar que um sistema era ótimo.

Shannon definiu o substrato da era digital. O bit é a unidade subjacente a todo armazenamento, processamento e transmissão. Quando você compra “1 TB de SSD”, está comprando aproximadamente 10¹³ bits de Shannon. Quando seu Wi-Fi negocia 1 Gbps, está chegando perto da capacidade de Shannon do canal de 2.4 GHz com SNR atual.

Shannon antecipou ML moderno. Em 1950, num artigo menos famoso — Programming a Computer for Playing Chess — ele esboçou minimax + função de avaliação, o algoritmo que vence em xadrez por décadas. Em 1953, construiu Theseus, um rato mecânico que aprendia a navegar um labirinto por reinforcement — provavelmente o primeiro hardware de aprendizado por reforço [VERIFICAR — Theseus operava com relés telefônicos e armazenava o caminho aprendido].

A entropia de Shannon é o conector silencioso entre Boltzmann (termodinâmica), Gibbs (mecânica estatística), Kolmogorov (complexidade), e Hinton (deep learning). É uma das fórmulas mais profundas da ciência do século XX.

Estado em 2026

  • Limites de Shannon continuam orientando design de canais. 5G New Radio opera a ~0.5 dB do limite teórico em condições ideais; satélites de internet (Starlink) idem.
  • Compressão sem perda atingiu o limite de Shannon há décadas. Os ganhos modernos vêm de compressão com perda controlada (JPEG, Opus, AV1), que aceita degradar percepção humana onde a entropia adicional não compensa o custo.
  • Cross-entropy loss é a função objetivo universal em LLMs — Shannon, sem saber, escreveu o critério de treino de GPT-4 e Claude Opus.
  • Information bottleneck theory (Tishby et al., 2015–2020) é uma tentativa de explicar deep learning via compressão de Shannon: redes aprendem representações que mantêm informação útil sobre o target enquanto descartam ruído de input. Controverso, mas influente.
  • Computação quântica força revisões: a capacidade de canal quântica (Holevo bound) generaliza Shannon, mas só vale para canais quânticos. Para fibra óptica clássica, Shannon ainda manda.
  • A Shannon Centennial (2016) trouxe Shannon de volta à consciência pública. Documentário The Bit Player (2018) está disponível.

Shannon é o mestre do sinal no jogo. Onde Turing define o que é computável, Shannon define quanto custa comunicar. Toda economia de tokens nasce dele.

Tratamento de carta — proposta

Shannon’s Channel Dataset Lendário · Founders · custo 🟦🟦

Toque: gere 2 ⚡ tokens de qualquer cor.

Permanente: Técnicas de comunicação suas custam 1 ⚡ a menos.

“A informação fundamental é uma escolha entre duas alternativas. Tudo o mais é redundância.”

Shannon é Dataset (não Modelo): ele é a fonte sobre a qual todos os Modelos operam. A geração de 2 tokens reflete sua dualidade canal/capacidade. O desconto em Técnicas de comunicação é literal: ele baixou o custo teórico de tudo.

Veja também

Entropy (Shannon) · Cross-Entropy (loss) · Tokenization

VEJA TAMBÉM
FONTES
  • Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3-4).
  • Shannon, C. E. (1937). A Symbolic Analysis of Relay and Switching Circuits. MIT MS Thesis.
  • Shannon, C. E., Weaver, W. (1949). The Mathematical Theory of Communication. University of Illinois Press.
  • Soni, J., Goodman, R. (2017). A Mind at Play: How Claude Shannon Invented the Information Age.