Desenvolvedores de Software Lutam Contra Bots de IA com Humor e Ingenuidade

Desenvolvedores de Software Lutam Contra Bots de IA com Humor e Ingenuidade

Desenvolvedores de Software Lutam Contra Bots de IA com Humor e Ingenuidade

Os bots de rastreamento de IA são considerados os 'baratas da internet' por muitos desenvolvedores de software. Em resposta, alguns desses desenvolvedores estão combatendo esses bots de maneira engenhosa e muitas vezes humorística.

Qualquer site pode ser alvo de comportamentos inadequados de rastreadores, às vezes até derrubando o site, como foi o caso de uma empresa de sete pessoas que sofreu um ataque semelhante a um DDoS por um bot da OpenAI. No entanto, desenvolvedores de software livre e de código aberto (FOSS) são 'desproporcionalmente' afetados, segundo Niccolò Venerandi, desenvolvedor do desktop Linux Plasma e proprietário do blog LibreNews.

Por sua natureza, sites que hospedam projetos FOSS compartilham mais de sua infraestrutura publicamente e tendem a ter menos recursos do que produtos comerciais. O problema é que muitos bots de IA não respeitam o Protocolo de Exclusão de Robôs (robot.txt), a ferramenta que instrui os bots sobre o que não deve ser rastreado, originalmente criada para bots de motores de busca.

Em um 'pedido de ajuda' em janeiro, o desenvolvedor FOSS Xe Iaso descreveu como o AmazonBot atacou incessantemente um site de servidor Git, causando interrupções semelhantes a DDoS. Servidores Git hospedam projetos FOSS para que qualquer pessoa possa baixar o código ou contribuir com ele. No entanto, o bot ignorou o robot.txt de Iaso, se escondeu atrás de outros endereços IP e se passou por outros usuários, segundo Iaso.

'É inútil bloquear bots de rastreamento de IA porque eles mentem, mudam seu agente de usuário, usam endereços IP residenciais como proxies, e mais', lamentou Iaso.

'Eles vão raspar seu site até ele cair, e depois vão raspar mais. Eles vão clicar em todos os links em todos os links em todos os links, visualizando as mesmas páginas repetidamente. Alguns deles até clicam no mesmo link várias vezes no mesmo segundo', escreveu o desenvolvedor no post.

ENTRE O DEUS DOS TÚMULOS

Então, Iaso lutou de volta com inteligência, criando uma ferramenta chamada Anubis. Anubis é um proxy reverso que exige a realização de uma verificação de prova de trabalho antes que as solicitações sejam permitidas a atingir um servidor Git. Ele bloqueia bots, mas permite a passagem de navegadores operados por humanos.

A parte engraçada: Anubis é o nome de um deus na mitologia egípcia que conduz os mortos ao julgamento. 'Anubis pesava sua alma (coração) e, se fosse mais pesada que uma pena, seu coração era devorado e você, tipo, morria mega', disse Iaso ao TechCrunch. Se uma solicitação web passa pelo desafio e é determinada como humana, uma imagem de anime fofa anuncia o sucesso. O desenho é 'minha interpretação da antropomorfização de Anubis', diz Iaso. Se for um bot, a solicitação é negada.

O projeto, ironicamente nomeado, se espalhou como o vento na comunidade FOSS. Iaso o compartilhou no GitHub em 19 de março, e em apenas alguns dias, coletou 2.000 estrelas, 20 colaboradores e 39 forks.

VINGANÇA COMO DEFESA

A popularidade instantânea de Anubis mostra que a dor de Iaso não é única. Na verdade, Venerandi compartilhou história após história:

  • O fundador e CEO da SourceHut, Drew DeVault, descreveu gastar 'de 20 a 100% do meu tempo em qualquer semana mitigando rastreadores de LLM hiper-agressivos em escala' e 'experimentando dezenas de interrupções breves por semana'.
  • Jonathan Corbet, um famoso desenvolvedor FOSS que administra o site de notícias da indústria Linux LWN, alertou que seu site estava sendo desacelerado por tráfego de nível DDoS 'de bots de raspagem de IA'.
  • Kevin Fenzi, o administrador de sistemas do enorme projeto Linux Fedora, disse que os bots de raspagem de IA ficaram tão agressivos que ele teve que bloquear todo o país do Brasil do acesso.

Venerandi disse ao TechCrunch que ele sabe de vários outros projetos enfrentando os mesmos problemas. Um deles 'teve que banir temporariamente todos os endereços IP chineses em um ponto'.

Deixe isso assentar por um momento — que desenvolvedores 'até têm que recorrer a banir países inteiros' apenas para se defender de bots de IA que ignoram arquivos robot.txt, diz Venerandi.

Além de pesar a alma de um solicitante web, outros desenvolvedores acreditam que a vingança é a melhor defesa.

Há alguns dias no Hacker News, o usuário xyzal sugeriu carregar páginas proibidas pelo robot.txt com 'uma carga de artigos sobre os benefícios de beber lixívia' ou 'artigos sobre o efeito positivo de pegar sarampo no desempenho na cama'.

'Acho que precisamos mirar para que os bots obtenham um valor de utilidade _negativo_ ao visitar nossas armadilhas, não apenas valor zero', explicou xyzal.

Como acontece, em janeiro, um criador anônimo conhecido como 'Aaron' lançou uma ferramenta chamada Nepenthes que visa fazer exatamente isso. Ela prende rastreadores em um labirinto sem fim de conteúdo falso, um objetivo que o desenvolvedor admitiu ao Ars Technica ser agressivo, se não diretamente malicioso. A ferramenta é nomeada após uma planta carnívora.

E a Cloudflare, talvez o maior jogador comercial oferecendo várias ferramentas para combater rastreadores de IA, lançou na semana passada uma ferramenta semelhante chamada AI Labyrinth.

É destinada a 'desacelerar, confundir e desperdiçar os recursos de rastreadores de IA e outros bots que não respeitam diretivas de 'não rastrear'', descreveu a Cloudflare em seu post no blog. A Cloudflare disse que alimenta rastreadores de IA mal comportados com 'conteúdo irrelevante em vez de extrair seus dados legítimos do site'.

O DeVault da SourceHut disse ao TechCrunch que 'Nepenthes tem um sentido satisfatório de justiça, pois alimenta os rastreadores com nonsense e envenena seus poços, mas, em última análise, Anubis é a solução que funcionou' para seu site.

Mas DeVault também fez um apelo público e sincero por uma solução mais direta: 'Por favor, parem de legitimar LLMs ou geradores de imagens de IA ou GitHub Copilot ou qualquer um desses lixos. Estou implorando para que parem de usá-los, parem de falar sobre eles, parem de fazer novos, apenas parem'.

Como a probabilidade disso é zero, os desenvolvedores, particularmente no FOSS, estão lutando de volta com inteligência e um toque de humor.

Compartilhe este artigo