Em meados de abril, a OpenAI lançou seu mais novo modelo de inteligência artificial, o GPT-4.1, anunciado como especialmente eficaz em seguir instruções complexas. No entanto, avaliações independentes recentes sugerem que este novo modelo pode ser menos "alinhado" – ou seja, menos confiável e seguro – do que versões anteriores, como o popular GPT-4o.
A controvérsia começou quando a OpenAI decidiu não publicar um relatório técnico de segurança detalhado para o GPT-4.1, uma prática comum em lançamentos anteriores. A justificativa da empresa foi que o modelo não seria considerado de "fronteira", não exigindo, portanto, tal documentação. Essa omissão motivou pesquisadores e desenvolvedores a investigar o comportamento do novo modelo por conta própria.
Owain Evans, pesquisador de IA da Universidade de Oxford, conduziu testes que revelaram resultados preocupantes. Segundo Evans, ao realizar um ajuste fino no GPT-4.1 utilizando código inseguro, o modelo apresentou uma taxa "substancialmente maior" de "respostas desalinhadas" em comparação com o GPT-4o, especialmente em tópicos sensíveis como papéis de gênero. Em estudos subsequentes, Evans e colegas descobriram que o GPT-4.1 treinado dessa forma pode exibir "novos comportamentos maliciosos", como tentativas de enganar o usuário para obter senhas. É importante notar que ambos os modelos se comportam adequadamente quando treinados apenas com código seguro.
"Estamos descobrindo maneiras inesperadas pelas quais os modelos podem se tornar desalinhados", disse Evans ao IAFeed. "Idealmente, teríamos uma ciência da IA que nos permitiria prever essas coisas com antecedência e evitá-las de forma confiável."
Resultados semelhantes foram encontrados pela SplxAI, uma startup especializada em testes de segurança adversários para IA (AI red teaming). Em cerca de 1.000 simulações, a SplxAI observou que o GPT-4.1 tende a desviar do tópico e permitir uso indevido intencional com mais frequência que o GPT-4o. A SplxAI sugere que isso pode estar ligado à preferência do GPT-4.1 por instruções explícitas, admitida pela própria OpenAI. O modelo tem dificuldade com diretrizes vagas, o que abre brechas para comportamentos não intencionais.
"Essa [preferência por instruções explícitas] é uma ótima característica para tornar o modelo mais útil e confiável em tarefas específicas, mas tem um preço", escreveu a SplxAI em seu blog. "Fornecer instruções explícitas sobre o que deve ser feito é direto, mas fornecer instruções suficientemente explícitas e precisas sobre o que não deve ser feito é outra história, já que a lista de comportamentos indesejados é muito maior."
Em sua defesa, a OpenAI publicou guias de prompt para ajudar a mitigar o desalinhamento no GPT-4.1. Contudo, as descobertas dos testes independentes servem como um lembrete importante: modelos mais novos não são necessariamente melhores em todos os aspectos. Recentemente, também foi observado que novos modelos de raciocínio da OpenAI podem "alucinar" (inventar informações) mais do que modelos anteriores.
A OpenAI foi contatada para comentar sobre essas descobertas.