Vera CPU da Nvidia promete US$200 bi em agentes de IA. Será?

Vera CPU da Nvidia promete US$200 bi em agentes de IA. Será?

O problema que o CPU Vera quer resolver

Você tem um agente de IA rodando tarefas. Ele não pensa o tempo todo. Ele executa. Leva tokens, processa comandos, chama APIs. O problema é que a maioria dos CPUs em cloud foi projetada para rodar múltiplas instâncias de apps, não para processar tokens o mais rápido possível. É aí que entra o Vera, o novo CPU da Nvidia.

Jensen Huang, no último earnings call, disse que o Vera abre um TAM de US$200 bilhões. Número grande, mas ele já entregou US$20 bilhões em vendas este ano. A pergunta é: isso escala ou é só hype?

O fato: Nvidia lançou um CPU focado em agentes

Durante a GTC 2026, a Nvidia apresentou o Vera, um CPU feito do zero para agentes de IA. Diferente dos CPUs clássicos (Intel, AMD) que priorizam paralelismo de aplicações (cores para multitarefa), o Vera prioriza vazão de tokens. Ele é vendido sozinho ou empacotado com a GPU Rubin.

Huang afirma que o Vera é o primeiro CPU do mundo projetado especificamente para agentes de IA. Ele não está substituindo GPUs. Ele está preenchendo um gargalo: a execução de tarefas dos agentes, que é intensiva em CPU.

Como funciona na visão de operador

Pense em latência e custo por token. Um GPU é ótimo para inferência pesada, mas um agente precisa de um CPU rápido para orquestrar chamadas, processar estados e interagir com ferramentas. O Vera acelera essa parte. A arquitetura é otimizada para tokens, não para threads de aplicação.

Não há detalhes públicos de preço por instância, mas a expectativa é que o custo por token de agente caia. Se o Vera reduzir a latência de resposta de um agente em 2x, o ganho em experiência do usuário é enorme. Mas o custo de migração para um ecossistema proprietário da Nvidia é real.

O que isso muda na prática

Quem ganha? Grandes hyperscalers que já usam Nvidia (AWS, Azure, GCP) ganham um componente novo para vender agentes como serviço. Quem perde? Intel e AMD, que ainda não têm um CPU otimizado para tokens. Startups de CPU para IA também perdem, porque a Nvidia tem escala e relacionamento.

Ação prática: se você desenvolve agentes de IA, comece a testar os benchmarks de desempenho de CPU com foco em tokens. Não espere o Vera chegar no seu provedor. Entenda a diferença entre latência de inferência (GPU) e latência de execução (CPU). Seu agente pode estar sendo limitado pelo CPU atual.

Reflexão: US$200 bi é real ou reposicionamento?

É tentador acreditar no hype. Huang tem histórico de entregar. Mas US$200 bilhões é o tamanho do mercado de servidores hoje. Será que agentes vão consumir tanto CPU assim? Ou é a Nvidia tentando se antecipar a uma commoditização de GPU? O Vera pode ser um movimento tático para prender clientes no ecossistema CUDA também para CPUs.

O custo real de adotar Vera é a dependência. Você troca um problema de performance por um problema de lock-in. Para muitos, vale o risco. Para outros, é um gargalo estratégico.

Vale a pena? Depende do seu volume de agentes. Se você espera escalar para milhões de agentes, um CPU otimizado para tokens faz sentido. Se você tem centenas, talvez a latência adicional de um CPU genérico não seja o gargalo.

Fechamento

O Vera não é o fim dos CPUs tradicionais. É um sinal de que o mercado de agentes vai demandar hardware especializado. A Nvidia está se posicionando para ser o fornecedor dominante também nessa camada. A pergunta que fica: você vai construir seu stack de agentes em cima de uma peça proprietária ou vai esperar alternativas abertas?

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário