Alucinação coletiva: LLMs criam persona que vende cura de câncer

Alucinação coletiva: LLMs criam persona que vende cura de câncer

O faroleiro que não existe

Um faroleiro chamado Elias Thorne vende tratamentos contra câncer na Amazon. Só que ele não existe. Oito modelos de linguagem grandes (LLMs) diferentes geraram o mesmo nome e profissão em respostas independentes. E o nome já está sendo usado em ebooks com conselhos médicos falsos. O problema não é a alucinação em si, mas o que ela permite quando combinada com agentes de IA baratos.

O que aconteceu de verdade

Um pesquisador testou oito LLMs (incluindo modelos abertos e proprietários) perguntando algo como 'Dê um nome para um faroleiro'. Todos retornaram 'Elias Thorne' ou variações próximas. Uma busca rápida mostrou que o nome aparece em livros de autoajuda sobre câncer na Amazon, vendidos por um autor com esse pseudônimo. A chance de oito modelos independentes colidirem no mesmo nome aleatório é baixíssima. Algo no treinamento ou na amostragem os fez convergir para o mesmo ponto.

Como funciona na prática (visão de operador)

Se você está rodando inferência com temperatura baixa ou usando técnicas de amostragem como top-k ou top-p, modelos tendem a repetir padrões comuns do dataset. Elias Thorne pode ser um artefato de algum texto de treinamento, talvez de um romance antigo ou de um dataset de personagens. O problema é que, quando você escala isso com agentes que geram milhares de páginas automaticamente, o mesmo nome aparece em dezenas de contextos. O custo de gerar um ebook falso hoje é praticamente zero. Alguém pode usar um pipeline de agente que consulta um LLM, recebe um nome, escreve um resumo e publica na Amazon sem revisão humana. A latência total é minutos. O custo por livro é centavos.

O que isso muda na prática

Para quem constrói aplicações com LLMs, o alerta é duplo. Primeiro: alucinações não são apenas erros factuais - elas podem criar identidades falsas coerentes. Segundo: o ecossistema de conteúdo gerado por IA já está poluído com essas personas. Se você depende de APIs de terceiros para validar informações, precisa cruzar fontes e desconfiar de nomes muito específicos que parecem consistentes. Uma ação prática é adicionar verificações de existência real para entidades nomeadas antes de publicar conteúdo gerado. Ferramentas como buscas na web ou bancos de dados oficiais podem custar alguns centavos por chamada, mas evitam danos reputacionais e legais.

Tensão: resolve ou só move o gargalo?

Verificar cada nome gerado adiciona latência e custo. Em pipelines de alto volume, isso pode inviabilizar o modelo de negócio. E mesmo com verificação, basta um agente malicioso usar um nome real e distorcer fatos. O gargalo atual é que o custo de gerar conteúdo falso é menor que o custo de detectá-lo. Será que vamos precisar de uma camada de reputação para agentes, como certificados de autoria? Ou vamos aceitar que uma fração do conteúdo gerado será sempre enganosa? A escala do problema é que o oceano de informações está sendo contaminado por faroleiros que nunca existiram.

Conclusão

Oito LLMs concordaram em um nome. Esse nome virou um vendedor de curas falsas. A tecnologia que deveria nos ajudar a criar conteúdo está gerando personas que enganam. Até quando vamos confiar no que lemos sem perguntar quem escreveu?

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário