O Problema da Inferência
A corrida por GPUs para treinar modelos já é conhecida. Mas a fase de inferência, quando o modelo responde ao usuário, tem exigências diferentes. E aí que a General Compute entrou com uma aposta ousada: chips especializados que prometem 700 tokens por segundo, sem depender da Nvidia.
A neocloud levantou US$15 milhões em seed, valuation de US$60 milhões, e já tem US$300 milhões em chips encomendados da SambaNova.
O Fato
A General Compute anuncia sua plataforma de inferência, focada em modelos já treinados. A diferença está nos chips: os SN50 da SambaNova, que usam uma arquitetura flexível com mais memória para contexto durante a inferência. A empresa afirma que esses chips superam GPUs e até mesmo os chips da Groq e Cerebras.
O CEO Finn Puklowski diz que os novos chips geram entre 600 e 700 tokens por segundo, contra cerca de 250 tokens/s em GPUs. A neocloud já está rodando o modelo open source MiniMax 2.7 e se diz a mais rápida para ele.
Como Funciona (Visão de Operador)
Os chips SambaNova são resfriados a ar, não a água, e consomem menos energia. Isso significa que podem ser instalados em datacenters existentes sem reformas caras. A General Compute está fechando acordos de colocation com provedores de data center e também com mineradores de cripto que querem reaproveitar sua infraestrutura.
Para o desenvolvedor, isso se traduz em APIs de inferência com latência menor. O custo por token tende a cair, já que o custo de infraestrutura é menor e a eficiência maior. A empresa oferece acesso direto aos chips SN50, que prometem uma nova classe de desempenho.
O Que Isso Muda na Prática
Quem ganha? Times que trabalham com coding agents ou agentes de áudio para atendimento ao cliente. O CEO cita que workloads que levam uma hora podem cair para cinco ou dez minutos. Também ganham empresas que buscam alternativas às GPUs da Nvidia, especialmente com a escassez e custo elevado.
Quem perde? A Groq e a Cerebras, que enfrentam concorrência direta. Mas a SambaNova também aposta alto: a parceria lembra o relacionamento da CoreWeave com a Nvidia. Para quem constrói, a ação prática é testar a API da General Compute, que já está no ar, para ver se a promessa de velocidade se concretiza.
Tensão e Reflexão
A pergunta que fica: esses chips realmente entregam o que prometem em produção? Os dados são da própria SambaNova e da General Compute, ainda sem benchmarks independentes. E a confiabilidade? Chips novos em neoclouds nascentes trazem riscos de indisponibilidade.
O custo de migrar de GPUs para uma arquitetura alternativa pode compensar, mas o ecossistema de software ainda é imaturo. É uma aposta em um futuro de inferência fragmentada, onde múltiplos chips e provedores competem em velocidade. Isso resolve o gargalo de latência ou só move o problema para a maturidade do hardware?
Fechamento
Para quem está construindo aplicações de IA, vale a pena ficar de olho na General Compute. Testar agora pode dar vantagem competitiva, mas com ressalvas. A inferência a 700 tokens por segundo é tentadora, mas o ecossistema ainda precisa provar que escala sem surpresas.
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário