O Alto Custo da Inteligência Artificial: Testar Novos Modelos de "Raciocínio" Pesa no Bolso e Gera Dúvidas

O Alto Custo da Inteligência Artificial: Testar Novos Modelos de "Raciocínio" Pesa no Bolso e Gera Dúvidas

Laboratórios de inteligência artificial, como a OpenAI, têm promovido seus novos modelos de IA capazes de "raciocinar", argumentando que eles superam versões anteriores em tarefas complexas, como física, por conseguirem "pensar" passo a passo. No entanto, uma análise mais atenta revela um obstáculo significativo: o custo exorbitante para avaliar o desempenho desses modelos, levantando questões sobre a capacidade de verificação independente dessas alegações.

Dados da Artificial Analysis, uma empresa independente de testes de IA, mostram que avaliar o modelo de raciocínio o1 da OpenAI em um conjunto de sete benchmarks populares custa impressionantes $2.767,05. Em comparação, testar o modelo GPT-4o da mesma empresa, lançado em maio de 2024 e sem essa capacidade de "raciocínio" avançado, custou apenas $108,85.

Outros modelos de raciocínio também apresentam custos elevados. O Claude 3.7 Sonnet da Anthropic, um modelo híbrido, custou $1.485,35 para ser avaliado nos mesmos testes pela Artificial Analysis. Embora existam opções mais baratas, como o o1-mini da OpenAI ($141,22), a tendência é clara: em média, testar modelos de raciocínio é muito mais caro. A Artificial Analysis gastou aproximadamente $5.200 para avaliar cerca de uma dúzia de modelos de raciocínio, quase o dobro dos $2.400 gastos para analisar mais de 80 modelos convencionais.

Por que essa diferença gritante de custos? A principal razão é a quantidade de "tokens" – pequenas unidades de texto – que esses modelos geram. Modelos de raciocínio precisam processar e gerar muito mais informações para simular um processo de pensamento passo a passo. O modelo o1 da OpenAI, por exemplo, gerou mais de 44 milhões de tokens durante os testes da Artificial Analysis, cerca de oito vezes mais que o GPT-4o. Como a maioria das empresas de IA cobra pelo uso com base no número de tokens, os custos disparam rapidamente.

Além disso, os benchmarks modernos são projetados para avaliar tarefas complexas e realistas, como escrever e executar código ou navegar na internet, o que naturalmente exige mais processamento e, consequentemente, mais tokens. Jean-Stanislas Denain, pesquisador sênior da Epoch AI, também aponta que o custo por token dos modelos mais avançados tem aumentado ao longo do tempo, citando exemplos como o o1-pro da OpenAI, que custa $600 por milhão de tokens de saída.

Essa escalada nos custos gera preocupações significativas na comunidade de IA. Ross Taylor, CEO da startup General Reasoning, relatou ter gasto $580 para avaliar o Claude 3.7 Sonnet em cerca de 3.700 prompts e estima que um único teste completo no benchmark MMLU Pro custaria mais de $1.800. "Estamos caminhando para um mundo onde um laboratório relata x% em um benchmark gastando y em computação, mas os recursos para acadêmicos são muito menores que y", alertou Taylor. "Ninguém conseguirá reproduzir os resultados."

A dificuldade de replicação independente ameaça a própria integridade científica da área. Embora alguns laboratórios ofereçam acesso gratuito ou subsidiado para fins de benchmarking, isso pode introduzir um viés nos resultados. Como Taylor questionou, "Do ponto de vista científico, se você publica um resultado que ninguém pode replicar com o mesmo modelo, isso ainda é ciência?"

Enquanto a inteligência artificial continua a avançar a passos largos com modelos cada vez mais sofisticados, o custo crescente para validar seu desempenho representa um desafio real para a transparência, a colaboração e a própria natureza científica do desenvolvimento da IA.

Compartilhe este artigo