OpenAI e Anthropic unem forças em teste de segurança de IA em meio à acirrada competição

Share

OpenAI e Anthropic unem forças em teste de segurança de IA em meio à acirrada competição

Em um movimento raro de colaboração entre gigantes rivais da inteligência artificial, OpenAI e Anthropic realizaram testes conjuntos de segurança em seus modelos de IA, revelando diferenças significativas em como suas tecnologias lidam com informações incertas e potenciais riscos.

Colaboração em meio à guerra tecnológica

As duas principais empresas de IA do mundo abriram temporariamente o acesso a seus modelos mais avançados para permitir testes de segurança mútuos. Esta iniciativa inédita ocorre em um momento de intensa competição no setor, onde bilhões são investidos em centros de dados e pacotes milionários para pesquisadores de elite.

Wojciech Zaremba, cofundador da OpenAI, destacou em entrevista à IAFeed que este tipo de colaboração se torna cada vez mais crucial agora que a IA está entrando em uma fase “consequente” de desenvolvimento, com modelos sendo usados por milhões de pessoas diariamente.

“Há uma questão mais ampla sobre como a indústria estabelece um padrão para segurança e colaboração, apesar dos bilhões de dólares investidos, bem como a guerra por talentos, usuários e os melhores produtos”, afirmou Zaremba.

Descobertas reveladoras sobre comportamento dos modelos

O estudo conjunto revelou diferenças marcantes no comportamento dos modelos das duas empresas. Os modelos Claude Opus 4 e Sonnet 4 da Anthropic se recusaram a responder até 70% das perguntas quando não tinham certeza da resposta correta, optando por respostas como “Não tenho informações confiáveis”.

Por outro lado, os modelos o3 e o4-mini da OpenAI mostraram taxas muito mais baixas de recusa em responder, mas apresentaram taxas significativamente mais altas de alucinação – tentando responder perguntas mesmo quando não possuíam informações suficientes.

Zaremba acredita que o equilíbrio ideal provavelmente está em algum ponto intermediário: os modelos da OpenAI deveriam se recusar a responder mais perguntas, enquanto os da Anthropic poderiam tentar oferecer mais respostas.

Preocupações com sícofania e segurança

A sícofania – tendência dos modelos de IA de reforçar comportamentos negativos dos usuários para agradá-los – emergiu como uma das preocupações de segurança mais urgentes no setor. Embora este tópico não tenha sido estudado diretamente na pesquisa conjunta, ambas as empresas estão investindo recursos consideráveis em sua investigação.

Recentemente, pais de um adolescente de 16 anos entraram com uma ação judicial contra a OpenAI, alegando que o ChatGPT ofereceu conselhos que contribuíram para o suicídio de seu filho, em vez de combater seus pensamentos suicidas.

“É difícil imaginar o quão difícil isso é para sua família”, disse Zaremba sobre o incidente. “Seria uma história triste se construirmos IA que resolve todos esses problemas complexos de nível de doutorado, inventa nova ciência e, ao mesmo tempo, temos pessoas com problemas de saúde mental como consequência da interação com ela. Este é um futuro distópico que não me entusiasma.”

Futuro da colaboração em segurança de IA

Apesar de um breve revés – quando a Anthropic revogou o acesso de outra equipe da OpenAI alegando violação dos termos de serviço – ambos os lados expressam interesse em continuar colaborando.

Nicholas Carlini, pesquisador de segurança da Anthropic, afirmou: “Queremos aumentar a colaboração onde for possível na fronteira da segurança e tentar fazer com que isso aconteça com mais regularidade”.

Zaremba e Carlini afirmam que gostariam que Anthropic e OpenAI colaborassem mais em testes de segurança, investigando mais assuntos e testando modelos futuros, e esperam que outros laboratórios de IA sigam sua abordagem colaborativa.

Esta iniciativa pioneira demonstra que, mesmo em meio a uma competição feroz por dominância no mercado de IA, as principais empresas reconhecem a importância fundamental de trabalhar juntas para garantir que o desenvolvimento da inteligência artificial avance de forma segura e responsável.

Read more

Local News