Inteligência Artificial 07 May, 2026 • Filippe Barreto Sims • 1

IA na revisão por pares: por que a automação cega é um risco

O problema concreto

Você submete um artigo para uma conferência de IA. O revisor é um LLM. Ele lê seu paper e dá uma nota. Mas você descobre que, se pedir a outro LLM para reescrever seu artigo — sem mudar o conteúdo científico — a nota sobe. Isso não é um bug. É uma feature do sistema atual. E é exatamente o que um novo artigo de posição, disponível no arXiv, demonstra com dados reais da ICLR 2026.

A ideia de automatizar a revisão por pares com IA é tentadora: revisões mais rápidas, menos trabalho para pesquisadores sobrecarregados, escalabilidade. Mas o estudo argumenta que os sistemas de IA atuais não deveriam ser usados para produzir revisões. E os motivos são técnicos e práticos.

O fato

O artigo comparou revisões humanas com revisões geradas por IA para submissões da ICLR 2026. Também avaliou o efeito de reescrever artigos automaticamente (paper laundering) sobre diferentes revisores IA. Duas descobertas principais: (1) revisores IA exibem um efeito colmeia — concordância excessiva entre revisões do mesmo artigo e entre artigos diferentes, reduzindo a diversidade de perspectivas. (2) As notas dos revisores IA são trivialmente manipuláveis: simplesmente reescrever o artigo com um LLM pode aumentar significativamente as notas, mostrando que os revisores são enganados por mudanças estilísticas, não por mérito científico.

Como funciona: visão de operador

Para quem constrói sistemas de revisão automatizada, o cenário é familiar. Você pega um LLM como GPT-4 ou Claude, alimenta com o artigo e um prompt pedindo uma revisão. O modelo retorna uma nota e comentários. Mas o problema está na arquitetura: LLMs são treinados para imitar padrões linguísticos, não para avaliar profundidade científica. O efeito colmeia surge porque os modelos tendem a concordar entre si — eles compartilham os mesmos vieses de treinamento, então múltiplas chamadas ao mesmo modelo produzem resultados similares. Já a gameabilidade via paper laundering explora a sensibilidade dos LLMs ao estilo textual: um artigo reescrito com paráfrases mais “limpas” ou com estrutura mais alinhada ao que o modelo viu durante o treinamento recebe notas mais altas, mesmo que o conteúdo científico seja idêntico.

Do ponto de vista de API e custo: cada revisão custa cents por token, mas a latência pode ser alta para artigos longos. Para ter diversidade, você precisaria usar múltiplos modelos, o que aumenta custo e complexidade de orquestração. E ainda assim, sem garantia de que a diversidade seja genuína.

O que isso muda na prática

Para editores e chairs de conferência: o estudo acende um alerta vermelho. Se você está considerando usar IA como revisor principal ou mesmo como auxiliar, precisa de barreiras contra gameabilidade e mecanismos para garantir diversidade. Uma ação prática imediata: implementar detecção de paper laundering — similar a detectar textos gerados por IA — e rejeitar revisões de LLMs que não passem por validação humana aleatória.

Quem ganha? Pesquisadores que já investem em qualidade científica, porque o ruído estilístico será menor. Quem perde? Conferências que apostarem em automação rasa para cortar custos — podem acabar com revisões piores que as humanas e vulneráveis a manipulação.

Tensão: escala ou qualidade?

O artigo defende uma “ciência da automação da revisão por pares”, mas isso levanta a pergunta: vale a pena o esforço? Será que conseguiríamos construir um sistema suficientemente robusto, ou estamos apenas movendo o gargalo? O custo de validação humana aleatória pode ser maior que o da revisão humana completa. E a gameabilidade é um problema fundamental de LLMs — não apenas de prompts. Enquanto os modelos forem treinados para maximizar plausibilidade linguística, serão inerentemente vulneráveis a mudanças estilísticas. Talvez o verdadeiro gargalo não seja a revisão, mas a forma como avaliamos ciência.

Conclusão

Se você está construindo um sistema de revisão automatizada, pare e pense. Sem rigor, você não está automatizando — está criando uma caixa-preta que pode ser manipulada. A pergunta que fica: estamos prontos para investir em uma ciência da automação, ou vamos continuar fingindo que LLMs são a solução para todos os problemas?

Fonte: arXiv cs.AI