COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Hardware & Infra agentic-era 2024 hardware

Groq / Cerebras (Inference)

Chips especializados em INFERÊNCIA ultra-rápida. Llama 70B a 500+ tokens/seg.

RESUMO

Groq LPU (Language Processing Unit), Cerebras WSE. Trade-off: caro por chip, mas streaming de palavras 10× mais rápido que GPU. Onda 2024-2025.

Tags: inference-chip · throughput

VEJA TAMBÉM