A Revolução Silenciosa: Como a IA Agêntica Está Redefinindo a Programação
Na última sexta-feira, a OpenAI marcou um novo capítulo na interseção entre inteligência artificial e desenvolvimento de software ao apresentar o Codex, um sistema inovador projetado para executar tarefas de programação complexas a partir de comandos em linguagem natural. Este lançamento posiciona a OpenAI na vanguarda de uma nova geração de ferramentas de codificação “agênticas”, um campo que apenas começa a tomar forma e promete transformar radicalmente como o software é criado.
Até recentemente, a maioria dos assistentes de codificação baseados em IA, desde o pioneiro Copilot do GitHub até ferramentas contemporâneas como Cursor e Windsurf, funcionava primordialmente como uma forma sofisticada de autocompletar. Integrados aos ambientes de desenvolvimento, esses assistentes interagem diretamente com o código gerado pela IA, exigindo que o usuário revise e intervenha. A ideia de simplesmente delegar uma tarefa e aguardar sua conclusão parecia distante.
Contudo, as novas ferramentas de codificação agêntica, como o Devin, SWE-Agent, OpenHands e o já mencionado Codex da OpenAI, chegam com uma proposta audaciosa: operar sem que os usuários precisem sequer visualizar o código. O objetivo é que essas IAs atuem como um gerente de uma equipe de engenharia, recebendo problemas através de sistemas de gestão de trabalho como Asana ou Slack e reportando apenas quando a solução é encontrada.
Para os entusiastas de formas altamente capazes de IA, este é o próximo passo lógico na progressão natural da automação, que vem assumindo cada vez mais tarefas no desenvolvimento de software. “No início, as pessoas escreviam código pressionando cada tecla,” explica Kilian Lieret, pesquisador de Princeton e membro da equipe do SWE-Agent. “O GitHub Copilot foi o primeiro produto a oferecer um autocompletar real, o que é uma espécie de estágio dois. Você ainda está totalmente no controle, mas às vezes pode pegar um atalho.”
A meta dos sistemas agênticos é transcender os ambientes de desenvolvimento, apresentando aos agentes de codificação um problema e deixando que eles o resolvam de forma autônoma. “Nós trazemos as coisas de volta para a camada de gerenciamento, onde eu apenas atribuo um relatório de bug e o bot tenta corrigi-lo de forma completamente autônoma,” complementa Lieret.
Apesar do entusiasmo, o caminho é árduo. Após o lançamento do Devin no final de 2024, a ferramenta enfrentou críticas consideráveis, com alguns usuários apontando que a supervisão dos modelos exigia tanto trabalho quanto realizar a tarefa manualmente, uma sensação familiar para veteranos da codificação assistida por IA. (Apesar de um lançamento conturbado, o potencial do Devin foi reconhecido por investidores, com sua empresa controladora, Cognition AI, levantando centenas de milhões de dólares em março, avaliando a empresa em 4 bilhões de dólares.)
Mesmo os defensores da tecnologia alertam contra a codificação “no feeling” sem supervisão, vendo os novos agentes como elementos poderosos dentro de um processo de desenvolvimento supervisionado por humanos. “No momento, e eu diria, no futuro previsível, um humano precisa intervir na hora da revisão do código para olhar o que foi escrito,” afirma Robert Brennan, CEO da All Hands AI, que mantém o OpenHands. “Vi várias pessoas se complicarem ao aprovar automaticamente todo o código que o agente escreve. Isso sai do controle rapidamente.”
As “alucinações” da IA também são um problema persistente. Brennan recorda um incidente em que, ao ser questionado sobre uma API lançada após o corte de dados de treinamento do agente OpenHands, o agente fabricou detalhes de uma API que se encaixava na descrição. A All Hands AI afirma estar trabalhando em sistemas para detectar essas alucinações, mas não há solução simples.
Uma medida notável do progresso da programação agêntica são os placares do SWE-Bench, onde desenvolvedores testam seus modelos contra um conjunto de problemas não resolvidos de repositórios abertos do GitHub. Atualmente, o OpenHands lidera o placar verificado, resolvendo 65,8% do conjunto de problemas. A OpenAI alega que um dos modelos por trás do Codex, o codex-1, pode superar essa marca, listando uma pontuação de 72,1% em seu anúncio – embora com ressalvas e sem verificação independente.
A preocupação em grande parte da indústria de tecnologia é que altas pontuações em benchmarks não se traduzem necessariamente em codificação agêntica verdadeiramente autônoma. Se os codificadores agênticos só conseguem resolver três de cada quatro problemas, eles exigirão supervisão significativa de desenvolvedores humanos, especialmente ao lidar com sistemas complexos de múltiplos estágios.
Como a maioria das ferramentas de IA, a esperança é que as melhorias nos modelos de fundação avancem a um ritmo constante, permitindo que os sistemas de codificação agêntica se tornem ferramentas de desenvolvimento confiáveis. No entanto, encontrar maneiras de gerenciar alucinações e outros problemas de confiabilidade será crucial para alcançar esse objetivo.
“Acho que existe um pouco de efeito de barreira do som,” diz Brennan. “A questão é, quanta confiança você pode transferir para os agentes, para que eles realmente diminuam sua carga de trabalho no final do dia?” Este é o desafio que definirá o futuro da programação com IA.
Para mais novidades sobre Inteligência Artificial, acompanhe o IAFeed.
