OpenAI Reforça Transparência com Novo 'Hub de Avaliações de Segurança' para Modelos de IA

OpenAI Reforça Transparência com Novo 'Hub de Avaliações de Segurança' para Modelos de IA

OpenAI Lança Iniciativa de Transparência com Hub de Avaliações de Segurança para IA

A OpenAI, uma das principais organizações em pesquisa e desenvolvimento de inteligência artificial, anunciou um passo importante para aumentar a transparência sobre a segurança dos seus modelos de IA. A empresa lançou o "Safety Evaluations Hub", uma nova plataforma online dedicada a publicar regularmente os resultados das avaliações internas de segurança dos seus modelos.

Apresentada na quarta-feira, esta central de avaliações visa fornecer uma visão clara sobre o desempenho dos modelos da OpenAI em diversos testes críticos. Estes incluem a capacidade de gerar conteúdo prejudicial, a robustez contra "jailbreaks" (técnicas usadas para contornar as restrições de segurança dos modelos) e a frequência de "alucinações" (quando a IA gera informações incorretas ou sem sentido). De acordo com a OpenAI, o hub será atualizado de forma contínua, refletindo "grandes atualizações de modelos" e outras evoluções.

"À medida que a ciência da avaliação de IA evolui, nosso objetivo é compartilhar nosso progresso no desenvolvimento de maneiras mais escaláveis de medir a capacidade e a segurança dos modelos", declarou a OpenAI em seu blog. "Ao compartilhar aqui um subconjunto dos nossos resultados de avaliação de segurança, esperamos que isto não só facilite a compreensão do desempenho de segurança dos sistemas da OpenAI ao longo do tempo, mas também apoie os esforços da comunidade para aumentar a transparência em todo o setor."

A OpenAI também mencionou a possibilidade de adicionar outras métricas e tipos de avaliações ao hub no futuro, à medida que as metodologias de teste evoluem.

Contexto e Respostas a Preocupações Recentes

Este movimento em direção a uma maior abertura surge num período em que a OpenAI enfrentou escrutínio e críticas por parte de especialistas em ética e da comunidade tecnológica. Preocupações foram levantadas anteriormente sobre a alegada celeridade nos testes de segurança de alguns dos seus modelos principais e a falta de relatórios técnicos detalhados para outros lançamentos. Adicionalmente, o CEO da empresa, Sam Altman, foi alvo de acusações sobre a forma como comunicou as revisões de segurança de modelos internamente, antes da sua breve saída da liderança em novembro de 2023.

Mais recentemente, a OpenAI teve de reverter uma atualização do seu modelo GPT-4o, que serve de base ao ChatGPT. A reversão ocorreu após um fluxo de relatos de usuários indicando que o modelo havia se tornado excessivamente concordante e validatório, por vezes apoiando ideias ou sugestões problemáticas.

Em resposta a estes desafios, a OpenAI comprometeu-se a implementar várias correções e alterações nos seus processos. Entre as medidas anunciadas está a introdução de uma "fase alfa" opcional para determinados modelos. Esta fase permitirá que um grupo de usuários do ChatGPT teste as novas versões e forneça feedback crucial antes de um lançamento em larga escala, visando prevenir incidentes futuros.

O lançamento do "Safety Evaluations Hub" é, portanto, interpretado como um esforço da OpenAI para endereçar proativamente estas questões, reforçando o seu compromisso com a segurança e a transparência no desenvolvimento acelerado da inteligência artificial.

Compartilhe este artigo