Uma análise recente do instituto de pesquisa sem fins lucrativos Epoch AI acende um alerta na indústria de inteligência artificial: a era de ganhos massivos de desempenho em modelos de IA focados em raciocínio pode estar chegando ao fim mais cedo do que se esperava. De acordo com o relatório, o ritmo de avanço desses modelos pode desacelerar significativamente, talvez já no próximo ano.
Modelos de raciocínio, como o recente o3 da OpenAI, têm impulsionado avanços notáveis em benchmarks de IA, especialmente em tarefas complexas como matemática e programação. Eles conseguem isso aplicando mais poder computacional aos problemas, o que melhora o desempenho, embora geralmente levem mais tempo para entregar resultados do que modelos convencionais.
O desenvolvimento desses modelos envolve duas etapas principais: primeiro, um treinamento convencional com grandes volumes de dados; depois, a aplicação de uma técnica chamada aprendizado por reforço (RL), que funciona como um ‘feedback’ para o modelo refinar suas soluções em problemas difíceis.
Segundo a Epoch AI, até agora, os laboratórios de ponta não vinham aplicando uma quantidade extrema de poder computacional especificamente na fase de RL. No entanto, esse cenário está mudando. A OpenAI, por exemplo, indicou ter usado cerca de 10 vezes mais computação para treinar o o3 em comparação com seu predecessor, o o1, e especula-se que grande parte desse aumento foi direcionada ao RL. Planos futuros da empresa, revelados por pesquisadores, indicam uma priorização ainda maior do RL, potencialmente demandando mais recursos computacionais do que o treinamento inicial do modelo.
Contudo, a análise da Epoch argumenta que existe um limite para o quanto a computação aplicada ao RL pode continuar gerando ganhos exponenciais. Josh You, analista da Epoch e autor do estudo, explica que, embora os ganhos com RL estejam atualmente superando os do treinamento padrão (crescendo dez vezes a cada 3-5 meses contra quatro vezes ao ano), essa vantagem deve diminuir. Ele prevê que o progresso do treinamento de raciocínio provavelmente ‘irá convergir com a fronteira geral [de ganhos de treinamento]’ por volta de 2026.
É importante notar que a análise se baseia em algumas suposições e comentários públicos de executivos da área. Além disso, o estudo aponta que outros fatores, como os altos custos indiretos de pesquisa, também podem impor desafios à escalabilidade desses modelos de raciocínio.
Qualquer indicação de que os modelos de raciocínio podem atingir um limite em breve é motivo de preocupação para a indústria de IA, que tem investido recursos enormes nesse tipo de tecnologia. Esses modelos já enfrentam desafios conhecidos, incluindo o custo operacional elevado e uma tendência a ‘alucinações’ (gerar informações incorretas) potencialmente maior que a de certos modelos convencionais.
O estudo da Epoch AI levanta, portanto, questões importantes sobre a sustentabilidade do ritmo atual de progresso e para onde os esforços de desenvolvimento de IA podem se direcionar no futuro próximo.
