Inteligência Artificial 28 May, 2026 • Filippe Barreto Sims • 2

Inferência: 700 tok/s com chips SambaNova, a aposta da General Compute

O Problema da Inferência

A corrida por GPUs para treinar modelos já é conhecida. Mas a fase de inferência, quando o modelo responde ao usuário, tem exigências diferentes. E aí que a General Compute entrou com uma aposta ousada: chips especializados que prometem 700 tokens por segundo, sem depender da Nvidia.

A neocloud levantou US$15 milhões em seed, valuation de US$60 milhões, e já tem US$300 milhões em chips encomendados da SambaNova.

O Fato

A General Compute anuncia sua plataforma de inferência, focada em modelos já treinados. A diferença está nos chips: os SN50 da SambaNova, que usam uma arquitetura flexível com mais memória para contexto durante a inferência. A empresa afirma que esses chips superam GPUs e até mesmo os chips da Groq e Cerebras.

O CEO Finn Puklowski diz que os novos chips geram entre 600 e 700 tokens por segundo, contra cerca de 250 tokens/s em GPUs. A neocloud já está rodando o modelo open source MiniMax 2.7 e se diz a mais rápida para ele.

Como Funciona (Visão de Operador)

Os chips SambaNova são resfriados a ar, não a água, e consomem menos energia. Isso significa que podem ser instalados em datacenters existentes sem reformas caras. A General Compute está fechando acordos de colocation com provedores de data center e também com mineradores de cripto que querem reaproveitar sua infraestrutura.

Para o desenvolvedor, isso se traduz em APIs de inferência com latência menor. O custo por token tende a cair, já que o custo de infraestrutura é menor e a eficiência maior. A empresa oferece acesso direto aos chips SN50, que prometem uma nova classe de desempenho.

O Que Isso Muda na Prática

Quem ganha? Times que trabalham com coding agents ou agentes de áudio para atendimento ao cliente. O CEO cita que workloads que levam uma hora podem cair para cinco ou dez minutos. Também ganham empresas que buscam alternativas às GPUs da Nvidia, especialmente com a escassez e custo elevado.

Quem perde? A Groq e a Cerebras, que enfrentam concorrência direta. Mas a SambaNova também aposta alto: a parceria lembra o relacionamento da CoreWeave com a Nvidia. Para quem constrói, a ação prática é testar a API da General Compute, que já está no ar, para ver se a promessa de velocidade se concretiza.

Tensão e Reflexão

A pergunta que fica: esses chips realmente entregam o que prometem em produção? Os dados são da própria SambaNova e da General Compute, ainda sem benchmarks independentes. E a confiabilidade? Chips novos em neoclouds nascentes trazem riscos de indisponibilidade.

O custo de migrar de GPUs para uma arquitetura alternativa pode compensar, mas o ecossistema de software ainda é imaturo. É uma aposta em um futuro de inferência fragmentada, onde múltiplos chips e provedores competem em velocidade. Isso resolve o gargalo de latência ou só move o problema para a maturidade do hardware?

Fechamento

Para quem está construindo aplicações de IA, vale a pena ficar de olho na General Compute. Testar agora pode dar vantagem competitiva, mas com ressalvas. A inferência a 700 tokens por segundo é tentadora, mas o ecossistema ainda precisa provar que escala sem surpresas.