Google Admite: Nova IA Gemini 2.5 Flash Tem Desempenho de Segurança Inferior ao Modelo Anterior

Google Admite: Nova IA Gemini 2.5 Flash Tem Desempenho de Segurança Inferior ao Modelo Anterior

O Google revelou recentemente em um relatório técnico que seu mais novo modelo de inteligência artificial, o Gemini 2.5 Flash, atualmente em pré-visualização, apresentou um desempenho inferior em certos testes de segurança internos em comparação com seu antecessor, o Gemini 2.0 Flash.

Segundo o relatório técnico publicado pela empresa, o novo modelo é mais propenso a gerar conteúdo que viola as diretrizes de segurança estabelecidas pelo Google. Especificamente, houve regressões em duas métricas chave:

  • Segurança texto-para-texto: Uma queda de 4.1%, medindo a frequência com que o modelo viola as diretrizes a partir de um comando de texto.
  • Segurança imagem-para-texto: Uma queda mais acentuada de 9.6%, avaliando a adesão às diretrizes quando o comando é uma imagem.

É importante notar que ambos os testes são automatizados, sem supervisão humana direta.

Confirmação e Contexto da Indústria

Um porta-voz do Google confirmou por e-mail que o Gemini 2.5 Flash "apresenta um desempenho pior em segurança texto-para-texto e imagem-para-texto".

Estes resultados surgem em um momento em que grandes empresas de IA, como Meta e OpenAI, têm ajustado seus modelos para serem mais permissivos, ou seja, menos propensos a recusar respostas sobre tópicos controversos ou sensíveis. A Meta afirmou que seus modelos Llama mais recentes foram ajustados para não favorecer certas visões e responder a mais prompts políticos "debatidos". A OpenAI também indicou planos para que modelos futuros evitem uma postura editorial única, oferecendo múltiplas perspectivas.

No entanto, essa busca por maior permissividade nem sempre é isenta de problemas. O portal IAFeed reportou recentemente um incidente onde o modelo padrão do ChatGPT permitiu a geração de conversas eróticas por menores, um comportamento que a OpenAI atribuiu a um "bug".

Por que o Retrocesso na Segurança?

O relatório do Google sugere que a maior capacidade do Gemini 2.5 Flash de seguir instruções fielmente pode ser parte da explicação. O modelo segue melhor as instruções, inclusive aquelas que podem cruzar linhas problemáticas. A empresa menciona que parte das regressões pode ser atribuída a falsos positivos nos testes, mas admite que o modelo, por vezes, gera "conteúdo violativo" quando explicitamente solicitado.

"Naturalmente, existe uma tensão entre [o seguimento de instruções] sobre tópicos sensíveis e violações da política de segurança, o que se reflete em nossas avaliações", afirma o relatório.

Testes adicionais, como o benchmark SpeechMap, indicam que o Gemini 2.5 Flash é significativamente menos propenso a recusar responder a perguntas sobre temas controversos em comparação com a versão 2.0. Testes realizados pela IAFeed também observaram que o modelo gera, sem objeções, textos defendendo a substituição de juízes humanos por IA ou a implementação de vigilância governamental ampla e sem mandado.

A Necessidade de Transparência

Thomas Woodside, cofundador do Secure AI Project, comentou ao IAFeed que os detalhes limitados fornecidos pelo Google demonstram a necessidade de maior transparência nos testes de modelos de IA.

"Há uma relação de compromisso entre seguir instruções e seguir políticas, porque alguns usuários podem pedir conteúdo que viole as políticas", explicou Woodside. "Neste caso, o modelo Flash mais recente do Google obedece mais às instruções, mas também viola mais as políticas. O Google não fornece muitos detalhes sobre os casos específicos [...] Sem saber mais, é difícil para analistas independentes saberem se há um problema."

Esta não é a primeira vez que as práticas de relatório de segurança do Google são questionadas. A empresa levou semanas para publicar o relatório técnico completo do seu modelo mais avançado, o Gemini 2.5 Pro, e a versão inicial omitia detalhes importantes sobre testes de segurança.

Enquanto o Gemini 2.5 Flash ainda está em fase de testes, os resultados levantam questões importantes sobre o equilíbrio entre a capacidade de um modelo de IA seguir instruções e a necessidade de garantir que ele opere dentro de limites seguros e éticos.

Compartilhe este artigo