Meta troca GPUs por CPUs da AWS Graviton: o que muda na inferência de IA

Meta troca GPUs por CPUs da AWS Graviton: o que muda na inferência de IA

O fim da hegemonia da GPU na inferência?

Meta assinou um acordo para usar milhões de chips AWS Graviton para rodar suas cargas de IA. A notícia chegou logo após o Google Cloud Next, como um recado direto: a briga por eficiência em inferência está mudando de patamar.

GPUs continuam sendo o padrão ouro para treinar modelos grandes. Mas o que a Meta está comprando aqui são CPUs ARM, não GPUs. E isso diz muito sobre para onde o mercado está indo.

O Fato

A Amazon anunciou que a Meta vai usar seus processadores Graviton (ARM-based) para alimentar workloads de IA. O acordo envolve milhões de chips. A Meta já havia fechado um contrato de $10 bilhões com o Google Cloud em 2025, mas este movimento sinaliza uma volta ao ecossistema AWS como espinha dorsal.

Paralelamente, a Amazon também tem seus próprios chips de IA (Trainium), mas a maior parte da capacidade já foi comprometida com a Anthropic em um acordo de $100 bilhões por 10 anos.

Como Funciona na Visão do Operador

O ponto aqui é arquitetura de workload. Agentes de IA criam demandas computacionais diferentes de treinamento massivo. Tarefas como raciocínio em tempo real, escrita de código, busca e coordenação multi-etapas são intensivas em CPU, não em paralelismo massivo de GPU.

  • Custo por token: CPUs ARM como Graviton tendem a oferecer um custo por operação mais baixo para inferência serializada, especialmente em cenários onde a latência não é crítica.
  • Latência: Para tarefas que exigem respostas rápidas, a escolha entre CPU e GPU depende do tamanho do modelo e do batch size. Modelos menores ou tarefas sequenciais podem rodar melhor em CPU.
  • Arquitetura: O Graviton 5 foi projetado para lidar com workloads de IA, o que sugere otimizações em instruções específicas para inferência, algo que a Nvidia também faz com sua nova CPU Vera.

A diferença crucial: Nvidia vende chips para todos (incluindo AWS). A AWS só vende acesso ao Graviton através de seu serviço cloud. Isso amarra o cliente ao ecossistema.

O Que Isso Muda na Prática

Quem ganha: Equipes que já rodam inferência em larga escala e buscam reduzir custos. Se você está usando GPUs para tarefas que poderiam ser feitas em CPUs com boa performance, este é o momento de reavaliar.

Quem perde: Provedores de GPU tradicionais (Nvidia, AMD) em cenários de inferência. Também perde o Google Cloud, que perdeu parte do orçamento da Meta.

Ação prática: Comece a perfilar seus workloads de inferência. Separe tarefas que exigem paralelismo massivo (modelos grandes, batch alto) das que são sequenciais (agentes, RAG, chains). Teste rodar estas últimas em instâncias baseadas em ARM (Graviton ou similares) e compare o custo por requisição.

Tensão / Reflexão

Isso escala ou só funciona em demo? A Meta tem escala para justificar a otimização. Para a maioria das empresas, a diferença de custo pode não compensar o esforço de migração e re-engenharia. Além disso, a promessa de CPUs para IA já existe há anos e nunca substituiu completamente as GPUs. O que mudou agora é a maturidade dos agentes de IA, que criam um novo perfil de carga de trabalho.

Outro ponto: a dependência de um único fornecedor de cloud (AWS) para acesso a esse hardware. Se o preço do Graviton subir ou a performance não acompanhar, a Meta terá pouca margem para barganhar.

Fechamento

A escolha entre CPU e GPU para inferência não é mais binária. O acordo Meta-AWS Graviton mostra que o mercado está se especializando: GPUs para treino e inferência pesada, CPUs ARM para agentes e tarefas sequenciais. Quem conseguir separar esses workloads vai pagar menos por token. Quem não fizer isso, vai continuar pagando o premium da GPU para tudo.

Compartilhe este artigo