Novo Modelo o3 da OpenAI: Discrepância em Benchmarks Levanta Questões de Transparência

Novo Modelo o3 da OpenAI: Discrepância em Benchmarks Levanta Questões de Transparência

Novo Modelo o3 da OpenAI: Discrepância em Benchmarks Levanta Questões de Transparência

Uma notável diferença entre os resultados de testes divulgados pela OpenAI para seu novo modelo de inteligência artificial, o3, e avaliações independentes realizadas por terceiros está gerando debates sobre a transparência da empresa e suas práticas de teste de modelos.

Quando a OpenAI apresentou o o3 em dezembro, afirmou que o modelo era capaz de resolver pouco mais de 25% das questões do FrontierMath, um conjunto desafiador de problemas matemáticos. Essa pontuação superava amplamente a concorrência, cujo melhor modelo alcançava apenas cerca de 2% de acertos.

"Atualmente, todas as ofertas disponíveis têm menos de 2% [no FrontierMath]", disse Mark Chen, diretor de pesquisa da OpenAI, durante uma transmissão ao vivo. "Estamos vendo [internamente], com o o3 em configurações agressivas de computação em tempo de teste, que conseguimos ultrapassar os 25%."

No entanto, parece que esse número representava um limite superior, alcançado por uma versão do o3 com mais poder computacional do que o modelo publicamente lançado. A Epoch AI, instituto de pesquisa por trás do FrontierMath, divulgou na sexta-feira os resultados de seus testes independentes com o o3. A Epoch AI descobriu que o o3 obteve uma pontuação de aproximadamente 10%, bem abaixo do valor máximo reivindicado pela OpenAI.

Isso não significa necessariamente que a OpenAI tenha mentido. Os resultados de benchmark publicados pela empresa em dezembro mostram uma pontuação mínima que coincide com a observada pela Epoch AI. A própria Epoch AI observou que sua configuração de teste provavelmente difere da utilizada pela OpenAI e que usou uma versão atualizada do FrontierMath para suas avaliações.

"A diferença entre nossos resultados e os da OpenAI pode ser devido à avaliação da OpenAI com uma estrutura interna mais poderosa, usando mais [computação] em tempo de teste, ou porque esses resultados foram executados em um subconjunto diferente do FrontierMath", explicou a Epoch AI.

Corroborando essa informação, a ARC Prize Foundation, que testou uma versão pré-lançamento do o3, afirmou em uma postagem que o modelo público o3 "é um modelo diferente [...] ajustado para uso em chat/produto", indicando que utiliza menos recursos computacionais.

Embora a questão possa parecer menos crítica dado que outros modelos da OpenAI, como o o3-mini-high e o o4-mini, já superam o o3 público no FrontierMath, e uma versão mais potente (o3-pro) está a caminho, o episódio serve como um lembrete importante: benchmarks de IA devem ser vistos com cautela, especialmente quando divulgados por empresas com produtos a vender.

Controvérsias sobre benchmarks estão se tornando comuns na indústria de IA, à medida que as empresas competem por manchetes e atenção. Recentemente, a própria Epoch AI foi criticada por atrasar a divulgação de financiamento recebido da OpenAI. Além disso, a xAI de Elon Musk foi acusada de publicar gráficos de benchmark enganosos para seu modelo Grok 3, e a Meta admitiu ter promovido resultados de uma versão de modelo diferente daquela disponibilizada aos desenvolvedores.

Este cenário reforça a necessidade de maior transparência e rigor na comunicação de capacidades de modelos de IA, garantindo que os resultados apresentados reflitam de forma precisa o desempenho dos produtos acessíveis ao público.

Compartilhe este artigo