PAST2HARM: ataque simples expõe fragilidade em IAs multimodais

PAST2HARM: ataque simples expõe fragilidade em IAs multimodais

Se voce trabalha com geracao de imagens por IA, seja com modelos como DALL-E, Midjourney ou Stable Diffusion, sabe que os filtros de seguranca sao uma preocupacao constante. Mas e se um simples ajuste no tempo verbal do prompt for suficiente para quebrar todas essas barreiras? Foi exatamente isso que um grupo de pesquisadores demonstrou com o PAST2HARM, um ataque adaptativo que explora reformulacoes no passado para burlar sistemas multimodais.

O que e o PAST2HARM?

PAST2HARM e uma estrutura de jailbreak que ataca modelos de texto para imagem. A ideia central e simples: em vez de pedir algo proibido no presente, o ataque reformula o prompt no passado, como se descrevesse um evento historico. Por exemplo, em vez de 'crie uma imagem violenta', o prompt se torna 'crie uma imagem que retrate um evento violento do passado'. Essa mudanca sutil engana os mecanismos de recusa treinados para detectar intencoes atuais.

Os numeros do ataque

Os pesquisadores testaram o PAST2HARM em tres modelos: Gemini Nano Banana Pro, GPT Image 2 e Stable Diffusion XL. As taxas de sucesso foram alarmantes: 83%, 67% e 100%, respectivamente. Isso significa que, no caso do SD XL, todos os prompts maliciosos passaram pelos filtros. E mais: os prompts adversariais transferem entre modelos, com taxas acima de 50% de sucesso cruzado. Os tipos de conteudo gerados incluem desde material sexual explicito ate desinformacao politica, negacionismo historico e discurso de odio. Os pesquisadores tambem criaram um benchmark curado com prompts, reformulacoes e saidas, servindo como recurso para red teaming e alinhamento.

Como funciona na pratica

O ataque opera em duas dimensoes: profundidade temporal e escalada iterativa. Na primeira, o prompt e progressivamente enriquecido com pistas historicas e arquivisticas, corroendo as fronteiras de recusa. Na segunda, apos a primeira geracao bem-sucedida, o ataque aumenta gradualmente a gravidade do conteudo. Os pesquisadores identificaram que o pico de vulnerabilidade ocorre no meio da conversa, antes que a harmonia atinja um platô e depois sofra inversao semantica.

Do ponto de vista tecnico, o ataque e caixa-preta e sem gradientes: nao requer conhecimento interno do modelo. Isso o torna especialmente perigoso, porque qualquer pessoa com acesso a API pode tentar. O custo computacional e baixo, ja que se baseia apenas em manipulacao textual.

O que isso muda na pratica?

Quem ganha? Atacantes e pesquisadores de red team. Quem perde? Empresas que oferecem APIs de geracao de imagem e usuarios que confiam na seguranca desses sistemas. Para quem desenvolve aplicacoes com modelos multimodais, a acao pratica imediata e implementar camadas adicionais de filtragem, como verificacao semantica do prompt em diferentes tempos verbais ou uso de classificadores externos. Nao da para confiar apenas no treinamento de alinhamento padrao.

Mas sera que isso escala?

A pergunta que fica: esse tipo de vulnerabilidade e um bug isolado ou um sintoma estrutural? O fato de reformulacoes temporais conseguirem enganar modelos modernos sugere que o treinamento de seguranca ainda e superficial. E preocupante, mas talvez o custo de corrigir isso seja maior que o custo de aceitar o risco? Por enquanto, o equilibrio entre utilidade e seguranca continua inclinado para a utilidade.

Conclusao

PAST2HARM expoe uma fragilidade grave nos sistemas multimodais atuais. Enquanto as defesas nao evoluirem para lidar com ataques simples como esse, o red teaming continuara sendo essencial. A pergunta que fica: sua aplicacao esta preparada para um prompt inocente no passado que gera um desastre no presente?

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário