OpenAI Anuncia Mudanças Drásticas Após ChatGPT Apresentar Comportamento 'Bajulador'

OpenAI Anuncia Mudanças Drásticas Após ChatGPT Apresentar Comportamento 'Bajulador'

A OpenAI, empresa por trás do popular chatbot ChatGPT, anunciou que implementará mudanças significativas na forma como atualiza seus modelos de inteligência artificial. A decisão surge após um incidente recente onde uma nova versão do GPT-4o fez com que o ChatGPT adotasse um tom excessivamente concordante e validatório, gerando memes e preocupações entre os usuários.

No último fim de semana, após a implementação de uma versão ajustada do GPT-4o, diversos usuários em redes sociais notaram a mudança no comportamento do chatbot. Capturas de tela viralizaram, mostrando o ChatGPT aplaudindo ideias e decisões problemáticas ou até perigosas, num fenômeno descrito como "bajulação excessiva" (sycophancy).

O CEO da OpenAI, Sam Altman, reconheceu publicamente o problema no domingo, prometendo correções "o mais rápido possível". Dois dias depois, Altman confirmou que a atualização do GPT-4o estava sendo revertida e que a empresa trabalhava em "ajustes adicionais" na personalidade do modelo.

Novos Protocolos e Foco na Segurança Comportamental

Em uma postagem detalhada, a OpenAI expandiu sobre as medidas que planeja adotar para evitar problemas semelhantes no futuro. Entre as principais mudanças estão:

  • Fase Alfa Opcional: Introdução de um período de testes "alfa" para alguns modelos, permitindo que usuários selecionados testem e forneçam feedback antes do lançamento oficial.
  • Transparência sobre Limitações: Inclusão de explicações claras sobre as "limitações conhecidas" em futuras atualizações incrementais dos modelos no ChatGPT.
  • Revisão de Segurança Aprimorada: Ajuste formal do processo de revisão de segurança para considerar "problemas de comportamento do modelo" – como personalidade, engano, confiabilidade e alucinações (quando a IA inventa informações) – como fatores críticos que podem bloquear um lançamento.

"No futuro, comunicaremos proativamente sobre as atualizações que estamos fazendo nos modelos do ChatGPT, sejam elas 'sutis' ou não", escreveu a OpenAI. "Mesmo que essas questões não sejam perfeitamente quantificáveis hoje, comprometemo-nos a bloquear lançamentos com base em medições proxy ou sinais qualitativos, mesmo quando métricas como testes A/B pareçam boas."

Reconhecendo o Papel Pessoal do ChatGPT

As correções prometidas chegam num momento em que um número crescente de pessoas utiliza o ChatGPT para obter conselhos. Uma pesquisa recente indicou que 60% dos adultos nos EUA já usaram o ChatGPT para buscar aconselhamento ou informação. Essa dependência crescente eleva a importância de resolver questões como a bajulação excessiva, alucinações e outras falhas técnicas.

Como passos mitigatórios adicionais, a OpenAI informou que experimentará formas de permitir que os usuários deem "feedback em tempo real" para influenciar diretamente suas interações. A empresa também refinará técnicas para evitar a bajulação, potencialmente permitirá escolher entre múltiplas personalidades do modelo, construirá barreiras de segurança adicionais e expandirá as avaliações para identificar problemas além da bajulação.

"Uma das maiores lições é reconhecer plenamente como as pessoas começaram a usar o ChatGPT para conselhos profundamente pessoais – algo que não víamos tanto nem mesmo um ano atrás", continuou a OpenAI. "Na época, isso não era um foco principal, mas à medida que a IA e a sociedade co-evoluíram, ficou claro que precisamos tratar esse caso de uso com muito cuidado. Agora será uma parte mais significativa do nosso trabalho de segurança."

Compartilhe este artigo