3.000 tokens/s em GPUs padrão: o novo limite da inferência de LLM?

3.000 tokens/s em GPUs padrão: o novo limite da inferência de LLM?

O gargalo da geração sequencial

Agentes autônomos de IA exigem respostas rápidas para loops de inspeção, planejamento e execução. Cada etapa depende da anterior. Se gerar 50 mil tokens leva oito minutos a 100 tokens/s, o ciclo se inviabiliza para uso interativo. A Kog AI acaba de mostrar que é possível empurrar esse limite para 3.000 tokens/s por requisição usando GPUs comuns – AMD MI300X e NVIDIA H200 – sem técnicas especulativas.

O que foi anunciado

O Kog Inference Engine (KIE) atinge 3.000 tokens/s de saída em 8× MI300X e 2.100 em 8× H200, com modelo de 2B parâmetros em FP16. A empresa promete suporte para modelos MoE maiores em breve. O foco é latência de requisição única, não throughput agregado – ou seja, otimização para o tempo que um usuário espera pela resposta completa.

Como eles conseguiram isso

O gargalo não são FLOPS, mas largura de banda de memória. Em batch size 1, cada token exige mover todos os pesos ativos do HBM para os processadores. A conta é simples: tokens/s ≤ bandwidth / (β × peso + KV cache). O KIE co-desenha arquitetura, runtime e kernels GPU para minimizar β e maximizar reuso de cache. É otimização vertical, não horizontal. Eles não usam decodificação especulativa – a aceleração vem de software, não de hardware dedicado.

Isso significa que os datacenters já existentes, com GPUs padrão, têm um teto de desempenho muito mais alto do que os stacks atuais entregam. O KIE prova que esse teto é atingível com co-design cuidadoso.

O que muda na prática

Para quem constrói agentes, o ganho é direto. Um workflow que exigia 8 minutos de geração cai para menos de 20 segundos. Isso viabiliza loops de iteração muito mais frequentes: planejar, codificar, testar, revisar – tudo dentro de um orçamento de tempo aceitável. Ferramentas de engenharia de software assistida por IA podem se tornar verdadeiramente interativas.

Quem perde? Fabricantes de hardware de inferência dedicado, como Groq ou Cerebras, que competiam justamente nessa métrica. Se GPUs padrão entregam velocidades similares com software otimizado, o argumento de lock-in de silício proprietário enfraquece.

Ação prática: Se você opera GPUs H100 ou MI300, fique de olho no playground da Kog e teste o modelo de 2B. A arquitetura do seu agente pode precisar ser repensada para aproveitar esse throughput – como paralelizar chamadas ou reduzir tamanho de contexto.

Isso escala?

A demonstração usa batch size 1 e modelo pequeno. O desafio real é manter essa velocidade com modelos grandes (70B+) e múltiplos usuários simultâneos. Kog afirma que suporte para MoE grandes está a caminho, mas a conta de memória banda para modelos densos grandes pode tornar o ganho menor. Além disso, o custo por token ainda precisa ser competitivo. O KIE resolve o gargalo de software, mas o hardware continua sendo o limite físico.

Outra tensão: otimizar tanto para latência baixa pode sacrificar eficiência energética ou capacidade de batching. Em produção, você precisa equilibrar os dois. A pergunta que fica: essa abordagem de co-design extremo é replicável por outros provedores ou vira diferencial proprietário?

Conclusão

A Kog AI mostrou que o teto de desempenho dos GPUs atuais é mais alto do que pensávamos. Para agentes de IA, a diferença entre 100 e 3.000 tokens/s transforma o produto possível. Mas a prova real virá quando modelos grandes e múltiplos usuários entrarem em cena. Até lá, vale a pena testar e recalibrar suas expectativas de latência.

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário