A OpenAI, conhecida pelo desenvolvimento do ChatGPT, anunciou uma atualização em seu Framework de Preparação (Preparedness Framework), o guia interno que define a segurança de seus modelos de inteligência artificial (IA) e as salvaguardas necessárias durante o desenvolvimento e lançamento. A mudança mais notável indica que a empresa pode "ajustar" seus requisitos de segurança caso um laboratório rival lance um sistema de IA considerado de "alto risco" sem proteções comparáveis.
Esta alteração surge em um cenário de crescente pressão competitiva no setor de IA, onde a velocidade de lançamento de novos modelos se tornou um fator crítico. A OpenAI já enfrentou acusações no passado de, supostamente, diminuir padrões de segurança para acelerar lançamentos e de não fornecer relatórios de testes de segurança em tempo hábil.
Flexibilidade com Cautela Declarada
Antecipando possíveis críticas, a OpenAI fez questão de ressaltar que tais ajustes não seriam feitos de forma leviana. Em sua publicação oficial, a empresa detalha o processo que seria seguido:
"Se outro desenvolvedor de IA de fronteira lançar um sistema de alto risco sem salvaguardas comparáveis, poderemos ajustar nossos requisitos. No entanto, primeiro confirmaríamos rigorosamente que o cenário de risco realmente mudou, reconheceríamos publicamente que estamos fazendo um ajuste, avaliaríamos que o ajuste não aumenta significativamente o risco geral de danos graves e ainda manteríamos as salvaguardas em um nível mais protetor."
Automatização para Acelerar o Desenvolvimento
O framework atualizado também deixa claro que a OpenAI está se apoiando mais em avaliações automatizadas para acelerar o desenvolvimento de seus produtos. Embora os testes liderados por humanos continuem sendo parte do processo, a empresa afirma ter construído "um conjunto crescente de avaliações automatizadas" que podem "acompanhar um ritmo mais rápido [de lançamento de modelos]".
Essa ênfase na velocidade levanta questões. De acordo com o jornal Financial Times, a OpenAI teria dado aos testadores um prazo inferior a uma semana para realizar verificações de segurança em um próximo modelo importante – um tempo consideravelmente menor em comparação com lançamentos anteriores. Fontes da publicação também sugeriram que muitos testes de segurança agora são conduzidos em versões mais antigas dos modelos, e não nas versões finais disponibilizadas ao público.
Novas Categorias de Risco: Alto e Crítico
Outras mudanças importantes no framework da OpenAI incluem a forma como a empresa categoriza os modelos de acordo com o risco, considerando capacidades como ocultar funcionalidades, contornar salvaguardas, impedir o próprio desligamento ou até mesmo auto-replicação. A OpenAI focará agora em dois limiares principais:
- Capacidade "Alta": Modelos que poderiam "amplificar caminhos existentes para danos graves".
- Capacidade "Crítica": Modelos que "introduzem novos caminhos sem precedentes para danos graves".
Conforme descrito pela OpenAI, sistemas que atingem capacidade "alta" devem ter salvaguardas que minimizem suficientemente os riscos associados antes de serem implantados. Já os sistemas que alcançam capacidade "crítica" também requerem salvaguardas robustas que minimizem os riscos associados ainda durante a fase de desenvolvimento.
Estas são as primeiras alterações significativas ao Framework de Preparação da OpenAI desde 2023, refletindo o equilíbrio complexo e muitas vezes tenso entre inovação acelerada, intensa pressão competitiva e a crescente responsabilidade de garantir a segurança no desenvolvimento de inteligências artificiais cada vez mais poderosas.