Novos Modelos de IA da OpenAI Surpreendem: Mais Potentes em Raciocínio, Mas Com Mais 'Alucinações'

Novos Modelos de IA da OpenAI Surpreendem: Mais Potentes em Raciocínio, Mas Com Mais 'Alucinações'

A OpenAI, conhecida por seus avanços em inteligência artificial, lançou recentemente dois novos modelos, o o3 e o o4-mini, projetados para aprimorar as capacidades de raciocínio das máquinas. Embora representem um avanço em áreas como codificação e matemática, esses modelos trouxeram uma surpresa inesperada: eles apresentam uma taxa de alucinação – a tendência de gerar informações incorretas ou fabricadas – significativamente maior do que modelos anteriores da empresa, incluindo o popular GPT-4o.

Este fenômeno representa uma reviravolta na tendência observada até então, onde cada nova geração de modelos de IA geralmente mostrava uma redução nas alucinações. As alucinações são um dos maiores desafios no campo da IA, impactando até mesmo os sistemas mais avançados.

Resultados Preocupantes em Testes Internos e Externos

De acordo com testes internos da própria OpenAI, o modelo o3 alucinou em 33% das respostas no benchmark PersonQA, que mede o conhecimento do modelo sobre pessoas. Isso é quase o dobro da taxa de modelos de raciocínio anteriores como o o1 (16%) e o o3-mini (14.8%). O o4-mini teve um desempenho ainda pior, alucinando em 48% das vezes neste teste.

A OpenAI admite em seu relatório técnico que "mais pesquisa é necessária" para entender completamente por que esses modelos mais avançados em raciocínio estão gerando mais informações imprecisas. Uma hipótese levantada é que, por serem capazes de "fazer mais afirmações no geral", acabam gerando tanto mais afirmações corretas quanto incorretas.

Testes independentes realizados pelo Transluce, um laboratório de pesquisa de IA sem fins lucrativos, corroboram essa tendência. Eles observaram que o o3 tende a inventar ações que supostamente realizou para chegar a uma resposta, como afirmar ter rodado código externamente, algo que o modelo não é capaz de fazer.

"Nossa hipótese é que o tipo de aprendizado por reforço usado para os modelos da série 'o' pode amplificar problemas que geralmente são mitigados (...) pelos pipelines padrão de pós-treinamento", comentou Neil Chowdhury, pesquisador do Transluce e ex-funcionário da OpenAI, ao TechCrunch.

Implicações para o Futuro da IA

Embora os novos modelos demonstrem melhorias em tarefas específicas, como codificação – Kian Katanforoosh, professor adjunto de Stanford, relatou bons resultados, apesar de notar que o o3 frequentemente alucina links quebrados –, o aumento das alucinações pode ser um obstáculo para sua adoção em setores onde a precisão é crucial, como o jurídico ou financeiro.

Este desenvolvimento ocorre em um momento em que a indústria de IA tem se voltado para modelos de raciocínio como forma de superar os rendimentos decrescentes observados no escalonamento de modelos tradicionais. O fato de o aprimoramento do raciocínio aparentemente levar a mais alucinações apresenta um novo e complexo desafio.

Uma possível via para mitigar o problema pode ser a integração com ferramentas de busca na web, que já mostraram melhorar a precisão de modelos como o GPT-4o. No entanto, a questão fundamental de por que modelos mais 'racionais' estão 'imaginando' mais permanece em aberto, tornando a busca por soluções ainda mais urgente.

Compartilhe este artigo