Inteligência Artificial 02 Jun, 2026 • Filippe Barreto Sims • 1

CNN processa Perplexity por cópias 'textuais' – e isso afeta toda a IA

A CNN entrou com um processo contra a Perplexity, acusando o mecanismo de busca com IA de gerar cópias 'textuais' de seus artigos – inclusive conteúdo atrás de paywall. Para quem opera com conteúdo e APIs, isso não é apenas mais uma briga jurídica: é um sinal de que o modelo de negócio da IA precisa ser ajustado.

O que a CNN alega

O processo, aberto em um tribunal de Nova York, afirma que a Perplexity ignora os bloqueios de scraping da CNN e produz respostas que reproduzem trechos inteiros de reportagens. Em um exemplo citado, o artigo What's next for Minneapolis? A shaky promise, mounting tensions and the fight for control foi reproduzido 'substancialmente' na íntegra apenas ao colocar o título como prompt. A CNN também diz que a Perplexity oferece aos assinantes do Comet Plus acesso a conteúdo que normalmente seria pago.

Como funciona o scraping e a geração de respostas

Do ponto de vista técnico, a Perplexity opera um motor de respostas que combina busca em tempo real com modelos de linguagem. O processo sugere que a empresa usa crawlers não identificados para burlar robots.txt e outras barreiras. Se a acusação proceder, significa que o conteúdo é ingerido, processado e republicado sem transformação criativa – o que, para um operador de IA, levanta questões sobre o pipeline de dados: você está realmente resumindo ou apenas copiando?

Em termos de arquitetura, a Perplexity provavelmente utiliza uma combinação de indexação web e geração aumentada por recuperação (RAG). O problema é que, se o modelo não for suficientemente restrito, ele pode regurgitar fragmentos literais. E isso não é só um erro de prompt: é uma questão de desenho do sistema.

O que isso muda na prática

Para quem publica conteúdo, o recado é claro: você precisa de proteções técnicas além do robots.txt. Ferramentas de detecção de crawlers e rate limiting específico para agentes de IA devem se tornar padrão. Para quem usa APIs de modelos de linguagem, o caso reforça a importância de filtrar saídas e evitar a reprodução exata de fontes protegidas.

Além disso, a CNN menciona que as negociações para licenciamento de conteúdo com a Perplexity fracassaram em outubro de 2025, e que a startup continuou usando o conteúdo mesmo após um pedido formal de cessação. Isso indica que, sem acordos comerciais claros, a tensão entre inovação e copyright só vai aumentar.

Implicações para a indústria

A lista de empresas processando a Perplexity já inclui NYT, Britannica, Merriam-Webster, News Corp, Amazon e Reddit. Isso mostra que não é um caso isolado. Para startups de IA, fica o alerta: o scraping sem permissão de conteúdo protegido pode gerar riscos legais enormes. Do lado técnico, soluções como watermarking de texto e verificação de similaridade contra o dataset original podem se tornar requisitos de compliance.

Do ponto de vista prático, operadores podem implementar rate limiting, bloquear crawlers desconhecidos, usar filtros de saída para originalidade e negociar licenciamento com publishers antes de lançar um produto de busca com IA.

Mas a pergunta que fica

Esse processo é um movimento legítimo de proteção de direitos autorais ou uma tentativa de frear a concorrência no espaço de busca com IA? A Perplexity já argumenta que 'fatos não têm direitos autorais'. A linha entre resumo e cópia é tênue, e definir isso judicialmente pode impactar todo o ecossistema de assistentes de IA. Será que a solução passa por licenciamento obrigatório, ou estamos caminhando para um modelo onde dados abertos e pagos convivem em APIs separadas?

Conclusão

A CNN vs Perplexity não é apenas mais um processo de copyright. É o momento em que a indústria de IA precisa decidir se o caminho é o licenciamento transparente ou a litigância constante. Enquanto isso, quem opera sistemas de busca aumentada por IA deve revisar os filtros de saída – antes que o próximo artigo copiado vire a próxima ação judicial.