OpenAI Revela que IA Já Se Iguala a Profissionais Humanos em Tarefas Econômicas
Um novo marco no desenvolvimento de inteligência artificial foi alcançado, com a OpenAI anunciando nesta quinta-feira um benchmark revolucionário que mede o desempenho de seus modelos contra profissionais humanos em diversas indústrias.
O GDPval: Medindo o Valor Econômico da IA
O GDPval representa uma tentativa pioneira de entender quão próximos os sistemas de IA estão de superar humanos em trabalhos economicamente valiosos – um objetivo fundamental da missão da empresa de desenvolver inteligência artificial geral (AGI).
Segundo a OpenAI, tanto o GPT-5 quanto o Claude Opus 4.1 da Anthropic “já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”.
Resultados Impressionantes, Mas Com Limitações
O estudo revelou que:
- GPT-5-high foi classificado como melhor ou equivalente a especialistas humanos em 40,6% das tarefas
- Claude Opus 4.1 alcançou impressionantes 49% de taxa de vitória
- O GPT-4o, lançado há 15 meses, tinha apenas 13,7% de taxa de sucesso
“As pessoas nesses empregos podem agora usar o modelo, cada vez mais conforme as capacidades melhoram, para descarregar parte de seu trabalho e fazer coisas potencialmente de maior valor”, afirmou o economista-chefe da OpenAI, Dr. Aaron Chatterji, em entrevista ao IAFeed.
Metodologia Abrangente
O GDPval-v0 foi baseado em nove indústrias que mais contribuem para o PIB americano, incluindo:
- Saúde
- Finanças
- Manufatura
- Governo
O benchmark testou o desempenho da IA em 44 ocupações diferentes, desde engenheiros de software até enfermeiros e jornalistas. Profissionais experientes compararam relatórios gerados por IA com aqueles produzidos por humanos, escolhendo o melhor em cada caso.
Progresso Acelerado
Tejal Patwardhan, líder de avaliações da OpenAI, destacou ao IAFeed que está encorajada com a taxa de progresso. O salto de 13,7% para quase 41% em apenas 15 meses mostra uma evolução exponencial que deve continuar.
O Futuro dos Benchmarks de IA
Enquanto benchmarks tradicionais como AIME 2025 e GPQA Diamond estão atingindo saturação, o GDPval surge como uma nova métrica crucial para medir a proficiência da IA em tarefas do mundo real.
A empresa reconhece que a versão atual do teste é limitada, cobrindo apenas a produção de relatórios de pesquisa, e planeja desenvolver testes mais robustos no futuro que possam avaliar fluxos de trabalho interativos e mais indústrias.
Este avanço representa um passo significativo na jornada rumo à inteligência artificial geral, demonstrando que a IA já é capaz de desempenhar funções economicamente relevantes com qualidade comparável à humana em diversas áreas profissionais.
