OpenAI Revela que IA Já Se Iguala a Profissionais Humanos em Tarefas Econômicas

Share

OpenAI Revela que IA Já Se Iguala a Profissionais Humanos em Tarefas Econômicas

Um novo marco no desenvolvimento de inteligência artificial foi alcançado, com a OpenAI anunciando nesta quinta-feira um benchmark revolucionário que mede o desempenho de seus modelos contra profissionais humanos em diversas indústrias.

O GDPval: Medindo o Valor Econômico da IA

O GDPval representa uma tentativa pioneira de entender quão próximos os sistemas de IA estão de superar humanos em trabalhos economicamente valiosos – um objetivo fundamental da missão da empresa de desenvolver inteligência artificial geral (AGI).

Segundo a OpenAI, tanto o GPT-5 quanto o Claude Opus 4.1 da Anthropic “já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”.

Resultados Impressionantes, Mas Com Limitações

O estudo revelou que:

  • GPT-5-high foi classificado como melhor ou equivalente a especialistas humanos em 40,6% das tarefas
  • Claude Opus 4.1 alcançou impressionantes 49% de taxa de vitória
  • O GPT-4o, lançado há 15 meses, tinha apenas 13,7% de taxa de sucesso

“As pessoas nesses empregos podem agora usar o modelo, cada vez mais conforme as capacidades melhoram, para descarregar parte de seu trabalho e fazer coisas potencialmente de maior valor”, afirmou o economista-chefe da OpenAI, Dr. Aaron Chatterji, em entrevista ao IAFeed.

Metodologia Abrangente

O GDPval-v0 foi baseado em nove indústrias que mais contribuem para o PIB americano, incluindo:

  • Saúde
  • Finanças
  • Manufatura
  • Governo

O benchmark testou o desempenho da IA em 44 ocupações diferentes, desde engenheiros de software até enfermeiros e jornalistas. Profissionais experientes compararam relatórios gerados por IA com aqueles produzidos por humanos, escolhendo o melhor em cada caso.

Progresso Acelerado

Tejal Patwardhan, líder de avaliações da OpenAI, destacou ao IAFeed que está encorajada com a taxa de progresso. O salto de 13,7% para quase 41% em apenas 15 meses mostra uma evolução exponencial que deve continuar.

O Futuro dos Benchmarks de IA

Enquanto benchmarks tradicionais como AIME 2025 e GPQA Diamond estão atingindo saturação, o GDPval surge como uma nova métrica crucial para medir a proficiência da IA em tarefas do mundo real.

A empresa reconhece que a versão atual do teste é limitada, cobrindo apenas a produção de relatórios de pesquisa, e planeja desenvolver testes mais robustos no futuro que possam avaliar fluxos de trabalho interativos e mais indústrias.

Este avanço representa um passo significativo na jornada rumo à inteligência artificial geral, demonstrando que a IA já é capaz de desempenhar funções economicamente relevantes com qualidade comparável à humana em diversas áreas profissionais.

Read more

Local News