Hardware & Infraagentic-era2024hardware

Groq / Cerebras (Inference)

Chips especializados em INFERÊNCIA ultra-rápida. Llama 70B a 500+ tokens/seg.

O quê

Groq e Cerebras são duas empresas de hardware que apostaram numa tese contrária à da NVIDIA H100: em vez de GPUs versáteis para treino, chips especializados em inferência ultra-rápida. O objetivo é gerar palavras (tokens) a velocidades que GPUs não alcançam — colocando Llama 70B em centenas de tokens por segundo por usuário.

A Groq (fundada por Jonathan Ross, ex-projetista da TPU do Google) construiu a LPU (Language Processing Unit), arquitetura determinística baseada em SRAM on-chip. Benchmarks independentes (ArtificialAnalysis.ai, 2024) mediram ~284 tokens/s em Llama 3 70B.
A Cerebras construiu o WSE-3 (Wafer-Scale Engine) — literalmente um chip do tamanho de uma bolacha de silício inteira, com 21 PB/s de banda de memória agregada (cerca de 7.000× a de uma H100). Seu serviço Cerebras Inference (ago/2024) entrega ~450 tokens/s em Llama 3.1 70B.

Em Magik LLM Gathering, são tratados como hardware · anchor da facção Foundry — o silício do streaming instantâneo.

Como funciona

O gargalo é a memória, não a matemática

Gerar texto é autoregressivo: cada token novo exige reler todos os pesos do modelo da memória. Em GPU, isso significa puxar dezenas de gigabytes da HBM a cada passo — e a banda de memória vira o teto. A ideia comum de Groq e Cerebras é manter pesos e ativações em SRAM, ordens de magnitude mais rápida que HBM, eliminando esse gargalo.

Groq — determinismo e SRAM

A LPU abre mão de caches e escalonamento dinâmico em favor de execução totalmente determinística: o compilador sabe, ciclo a ciclo, onde cada dado estará. Isso elimina variância de latência (ótimo para aplicações interativas), ao custo de precisar espalhar o modelo por muitos chips, já que cada um carrega pouca memória.

Cerebras — a bolacha inteira

A Cerebras não corta a wafer em chips menores: usa a wafer inteira como um único processador, com centenas de milhares de núcleos e memória distribuída no próprio silício. Um modelo de 70B cabe em poucos sistemas CS-3; pesos de 16 bits nativos preservam qualidade. O trade-off é custo por sistema elevado e modelo de negócio mais voltado a serviço (API) do que a venda de hardware.

Por que importa

Streaming muda a experiência. Quando o texto sai 5–10× mais rápido, casos de uso novos abrem: agentes que fazem dezenas de chamadas em série, raciocínio com muitos passos, voz em tempo real. Latência baixa é produto.

Desafiam o eixo GPU. Provam que, para inferência, arquiteturas dedicadas batem GPUs de propósito geral — pressionando a própria NVIDIA a otimizar inferência (NVIDIA B100/B200 Blackwell, FP4).

Sinergia com técnicas de software. Ganhos de hardware compõem com Speculative Decoding e KV Cache: cada um ataca o gargalo de latência por um ângulo.

Estado em 2026

Onda de inferência rápida consolidada (2024-2025) — Groq, Cerebras e SambaNova viraram opções reais para quem precisa de throughput de tokens, não de treino.
Trade-off persiste: caro por chip/sistema, mas streaming muito mais veloz que GPU. Escolha de nicho, não de propósito geral.
Modelo de raciocínio favorece velocidade. Com Test-Time Compute / Inference Scaling gastando muitos tokens internos, gerar rápido reduz o tempo de resposta de cadeias longas.
Concorrência da própria NVIDIA com FP4 em Blackwell estreita a vantagem em alguns regimes.

Tratamento de carta — proposta

Groq Inference Bay Site · Foundry

Modelos seus com a palavra-chave Streaming não tocam (não exaustam) ao atacar — eles podem atacar de novo no mesmo turno.

“Quinhentas palavras por segundo. Sem pausa para respirar.”

A mecânica encena velocidade de inferência: o modelo “fala” tão rápido que age múltiplas vezes onde outros agiriam uma só.

Veja também

NVIDIA H100 · Speculative Decoding · KV Cache · Edge Inference · Test-Time Compute / Inference Scaling

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Groq (2024). Llama 3 on the LPU Inference Engine; benchmark independente ArtificialAnalysis.ai (~284 tok/s, Llama 3 70B).
Cerebras (2024). Introducing Cerebras Inference (450 tok/s Llama 3.1 70B, WSE-3). cerebras.ai/blog.
FriendliAI (2024). Llama 3.1 70B API Providers Comparative Analysis (Cerebras 446 t/s, Groq 250 t/s).