Groq / Cerebras (Inference)
Chips especializados em INFERÊNCIA ultra-rápida. Llama 70B a 500+ tokens/seg.
RESUMO
Groq LPU (Language Processing Unit), Cerebras WSE. Trade-off: caro por chip, mas streaming de palavras 10× mais rápido que GPU. Onda 2024-2025.
Tags: inference-chip · throughput
VEJA TAMBÉM