O que aconteceu?
Por US$ 1.000, um modelo de IA resolveu um problema que matemáticos tentavam provar desde 1946. A OpenAI anunciou que um de seus modelos de raciocínio interno — especulado como GPT-5.6 — produziu uma nova família de construções que refuta a conjectura das distâncias unitárias de Erdős, um problema em aberto por 80 anos. O resultado foi validado por matemáticos como Timothy Gowers, que o chamou de primeiro exemplo claro de IA resolvendo um problema bem conhecido em matemática.
O modelo gerou 125 páginas de saída, incluindo um momento crucial na página 39 que chamou a atenção dos revisores. O custo foi inferior a US$ 1.000, rodando por menos de 32 horas. A OpenAI enfatizou que o modelo não é especializado em matemática, mas sim um LLM de propósito geral, sugerindo que esse tipo de raciocínio pode se generalizar para outras áreas da ciência.
Como funciona na prática?
Do ponto de vista de operador, o avanço está no uso intensivo de compute em tempo de teste (test-time compute). O modelo foi executado com uma cadeia de raciocínio longa, explorando múltiplas hipóteses até encontrar uma estrutura geométrica que contradiz a conjectura. Isso difere de sistemas como AlphaProof, que são treinados especificamente para provas formais. Aqui, o modelo é um LLM genérico que, ao receber o problema, dedicou recursos computacionais para gerar e verificar candidatos a soluções.
O custo baixo é notável: US$ 1.000 para um resultado que levaria anos a um matemático. Mas é importante notar que a tarefa era específica e bem definida. O modelo não precisou lidar com ambiguidades de linguagem natural ou informações incompletas.
O que isso muda na prática?
Para pesquisadores, a implicação é imediata: IAs de propósito geral podem ser usadas como ferramentas de descoberta em matemática e ciências. Em vez de esperar sistemas especializados, um LLM com raciocínio estendido pode ser aplicado a problemas abertos. Para quem constrói sistemas de IA, isso reforça a importância do escalonamento do raciocínio em tempo de teste, mais do que o tamanho do modelo ou dos dados de treino.
Uma ação prática: qualquer laboratório de P&D pode começar a submeter problemas matemáticos bem formulados para modelos de última geração, mesmo sem expertise em matemática pura. O custo é baixo o suficiente para valer a tentativa.
Tensão: isso escala?
A empolgação é justificada, mas precisamos de calma. O resultado é uma desprova, não uma prova. Descartar uma conjectura é mais fácil do que construir uma prova completa. Além disso, o tempo e custo são baixos para um problema, mas e para problemas mais complexos? O modelo teve acesso a um histórico de tentativas humanas? Ainda não sabemos se esse desempenho é reprodutível em problemas que não estão em bancos de dados públicos. Existe o risco de overfit a problemas conhecidos.
Outra dúvida: o custo benefício compensa? US$ 1.000 é barato para uma descoberta, mas se o modelo tivesse falhado, seria um gasto perdido. Para problemas mais difíceis, quanto custaria? E qual a confiabilidade? A saída precisa ser validada por matemáticos, o que ainda leva tempo.
Conclusão
O feito da OpenAI é um marco: um modelo de propósito geral resolveu um problema de 80 anos com menos de mil dólares. Mas o verdadeiro teste será a generalização. Até onde esse tipo de raciocínio pode ir? A resposta pode mudar a forma como fazemos ciência — ou pode ser apenas uma prova de conceito cara.
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário