O mundo da inteligência artificial (IA) está em constante competição, e até mesmo os monstrinhos de bolso de Pokémon entraram na arena de testes, gerando controvérsias sobre a validade dos benchmarks.
Recentemente, uma publicação na rede social X (antigo Twitter) ganhou grande repercussão ao afirmar que o modelo Gemini, do Google, havia ultrapassado o Claude, da Anthropic, na trilogia original dos jogos Pokémon para Game Boy. A postagem viralizou com a notícia de que o Gemini teria alcançado a cidade de Lavendar Town, enquanto o Claude, segundo relatos anteriores, ainda estaria preso no Mt. Moon.
"Gemini está literalmente à frente de Claude em Pokémon após chegar a Lavender Town", dizia o post, destacando uma transmissão ao vivo com poucos espectadores.
A Vantagem Secreta do Gemini
No entanto, a história não contada por trás do aparente sucesso do Gemini logo veio à tona. Usuários atentos no Reddit apontaram um detalhe crucial: o desenvolvedor responsável pela transmissão do Gemini implementou uma ajuda personalizada: um minimapa.
Esse minimapa auxiliava a IA a identificar elementos do jogo, como árvores que podem ser cortadas ("cuttable trees"), reduzindo significativamente a necessidade do modelo analisar capturas de tela complexas para tomar decisões. Ou seja, o Gemini não estava jogando exatamente nas mesmas condições que outros modelos.
Benchmarks de IA: Uma Medida Imperfeita
Embora usar Pokémon como benchmark de IA possa parecer mais uma curiosidade do que um teste rigoroso, o caso ilustra um problema maior e crescente na área: a forma como um benchmark é implementado pode influenciar drasticamente os resultados.
Essa não é uma questão isolada. Vimos exemplos semelhantes recentemente:
- A própria Anthropic reportou duas pontuações diferentes para seu modelo Claude 3.7 Sonnet no benchmark de programação SWE-bench Verified, uma delas significativamente maior graças a um "andaime personalizado" (custom scaffold) desenvolvido internamente.
- A Meta também ajustou uma versão do seu modelo Llama 4 Maverick especificamente para obter um bom desempenho no benchmark LM Arena, enquanto a versão "pura" do modelo pontuou bem abaixo dos concorrentes na mesma avaliação.
Comparar IAs Está Ficando Mais Difícil?
Os benchmarks de IA já são considerados medidas imperfeitas das capacidades reais de um modelo. A introdução de implementações personalizadas, otimizações específicas para testes e "ajudas" não padronizadas, como o minimapa no caso do Pokémon, turvam ainda mais as águas.
Isso torna a tarefa de comparar objetivamente diferentes modelos de IA cada vez mais complexa. A transparência sobre as condições de teste e a busca por métodos de avaliação mais padronizados e robustos tornam-se essenciais para entendermos verdadeiramente o avanço da inteligência artificial.