Inteligência Artificial 29 May, 2026 • Filippe Barreto Sims • 2

Citações falsas de IA já contaminam diretrizes clínicas

O problema das referências fantasmas

Você confia em um guideline clínico que cita artigos que nunca existiram? Pois é exatamente isso que está acontecendo. Um estudo da Columbia University publicado no The Lancet analisou 2,47 milhões de artigos biomédicos e encontrou um aumento de mais de 12 vezes na taxa de referências fabricadas desde 2023. A causa provável: modelos de linguagem como o ChatGPT, que geram citações convincentes mas totalmente inventadas.

A equipe de Maxim Topaz vasculhou 97,1 milhões de referências nos artigos do PubMed Central publicados entre janeiro de 2023 e fevereiro de 2026. Desse total, 4.046 referências foram classificadas como fabricadas, espalhadas por 2.810 papers. Uma referência era considerada falsa se seu título não fosse encontrado em quatro grandes bases de dados: PubMed, Crossref, OpenAlex e Google Scholar.

A curva de crescimento

Até 2023, a taxa era estável em cerca de 4 referências fabricadas a cada 10 mil artigos. A partir de meados de 2024, disparou: 51,3 por 10 mil no fim de 2025 e 56,9 por 10 mil nas primeiras semanas de 2026. O timing bate com a adoção em massa de LLMs a partir do fim de 2022, considerando o ciclo de publicação de 100 a 200 dias. Os autores não descartam outras causas, como paper mills ou mudanças na indexação, mas o padrão é forte.

Por que isso é perigoso?

O pior é que as referências falsas são difíceis de detectar. Elas combinam com o tema do artigo, seguem formatação correta, creditam autores reais e têm anos de publicação plausíveis. Em um artigo de urologia, 18 das 30 referências verificadas eram fabricadas, todas sobre o tema cirúrgico específico. Os pesquisadores também encontraram indícios de atividade coordenada de paper mills: dois autores apareceram em 11 artigos do mesmo periódico cirúrgico, com 15 referências falsas sobre tópicos como diagnósticos CRISPR e microbioma intestinal.

Visão de operador: como isso funciona na prática

Você usa um LLM para escrever um review. Ele gera uma seção de referências com autores, títulos e anos que parecem legítimos. O modelo não tem um mecanismo interno de verificação; ele apenas produz texto estatisticamente plausível. O custo? Baixo: uma consulta ao ChatGPT custa centavos. A latência? Segundos. O resultado é uma bomba de desinformação pronta para ser publicada. Ferramentas como o CiteAudit tentam automatizar a checagem, mas os próprios LLMs são péssimos em detectar suas próprias alucinações.

O que isso muda na prática

Se você é editor de periódico, precisa implementar verificação automática de referências antes da revisão por pares. Se é revisor, desconfie de citações muito perfeitas. A ação prática imediata: usar sistemas como o CiteAudit para escanear referências suspeitas. Os pesquisadores recomendam quatro passos: checagem automatizada antes da revisão, metadados de integridade nos datasets, triagem retroativa de artigos já publicados e sanções para abusos. O Arxiv já ameaça banir autores que usarem LLMs sem verificação.

Tensão: resolve ou só move o gargalo?

A pergunta que fica: a checagem automatizada vai resolver ou apenas tornar as alucinações mais sofisticadas? Paper mills podem adaptar seus métodos. Além disso, 98,4% dos artigos afetados no estudo não receberam resposta dos editores. A infraestrutura científica está correndo atrás, mas o prejuízo pode ser enorme: artigos de revisão, que mais sofrem com falsificações, são a base de diretrizes clínicas. Se uma referência falsa entra na cadeia de evidências, todo o tratamento derivado dela fica comprometido.

Conclusão

O aumento das citações alucinadas não é um bug, é um sintoma de como estamos usando IA sem os devidos controles. A pergunta que fica: até onde a confiança na literatura científica pode se esticar antes de romper?