O problema de medir o imensurável
Se você acompanha o ecossistema de IA, já deve ter sentido o incômodo: os benchmarks estão ficando obsoletos mais rápido que os modelos evoluem. Agora temos um caso concreto. O Claude Mythos Preview, da Anthropic, é o primeiro modelo a bater no teto da METR, organização que tenta quantificar riscos de IA. O resultado: 50% de sucesso em tarefas que levariam 16 horas para um humano. E a METR admite que não consegue mais medir direito além desse ponto.
Isso não é apenas uma curiosidade acadêmica. É um sinal de que a avaliação de capacidades está atrasada em relação à realidade. E, como operador, isso me incomoda: como tomar decisões embasadas se os números não são confiáveis?
O fato: METR no limite
A METR testou uma versão inicial do Mythos em março de 2026. Ela calculou um horizonte de tempo de 50% de pelo menos 16 horas, com intervalo de confiança entre 8,5 e 55 horas. Esse número representa a duração de tarefa na qual o modelo tem 50% de chance de completar algo que um humano faria no mesmo tempo. O conjunto de testes da METR tem 228 tarefas, mas apenas cinco delas são classificadas como 16 horas ou mais. Isso significa que medições nessa faixa são instáveis e menos significativas.
A organização diz que seu conjunto ainda poderia distinguir modelos muito mais capazes dos atuais, mas as estimativas quantitativas precisas param por aí. Estão trabalhando em métodos com tarefas mais longas, mas ainda em desenvolvimento. O gargalo não é o modelo, é a régua.
Como funciona: a visão de operador
Na prática, a METR usa tarefas que vão desde treinar um classificador (~45 minutos) até treinar um modelo de imagem robusto (~4 horas). O Mythos alcança 50% de sucesso em 16 horas, o que significa que ele consegue executar tarefas que exigem planejamento e execução prolongados. Para um operador, isso traduz em: o modelo pode agir de forma autônoma por períodos significativos, sem supervisão constante.
Palo Alto Networks, que teve acesso antecipado ao Mythos e outros modelos de fronteira, descreve o que viu como uma mudança de patamar. Em três semanas de análise com IA, eles cobriram o equivalente a um ano inteiro de testes de penetração manuais, com cobertura mais ampla. Em alguns casos, o modelo combinou vulnerabilidades de baixo risco individual em cadeias de ataque críticas. O tempo desde o acesso inicial até a exfiltração de dados pode cair para 25 minutos em cenários com suporte de IA.
Do ponto de vista de custo e latência, não temos números exatos, mas é seguro inferir que esses modelos exigem hardware de ponta e têm custo por inferência alto. A eficiência de codificação melhorou cerca de 50% em relação aos antecessores, mas isso, como a Palo Alto Networks aponta, é o limiar em que a IA deixa de ser assistente e se torna operadora autônoma.
O que isso muda na prática
Quem ganha? Atacantes, obviamente. Ferramentas de pentest automatizadas sempre existiram, mas agora temos agentes que entendem vulnerabilidades de forma intuitiva, sem scripts pré-programados. Defensores precisam se preparar para ataques mais rápidos e adaptativos.
Quem perde? Empresas que confiam cegamente em benchmarks para avaliar riscos. Se a METR não consegue medir, você também não consegue. Também perdem equipes de segurança que dependem de processos manuais lentos.
Uma ação prática imediata: reavaliar os procedimentos de patching e resposta a incidentes. Reduza o tempo de janela de exposição. Considere que um atacante com IA pode explorar uma vulnerabilidade em minutos, não em dias.
Outra ação: não confie em métricas únicas. Use múltiplos métodos de avaliação, inclusive simulações de ataque com agentes de IA.
Tensão: isso escala?
A pergunta que fica: até que ponto a aceleração dos ataques é sustentável? Se a IA defensiva também avança, estamos em uma corrida armamentista. Mas o custo de operar esses modelos é alto. Será que atacantes têm os mesmos recursos? Palo Alto Networks sugere que sim, e que a barreira de entrada está caindo.
Outra dúvida: o que acontece quando os benchmarks finalmente conseguirem medir o Mythos? Provavelmente outro modelo já terá ultrapassado. O ciclo está cada vez mais curto.
No fundo, o problema não é que os modelos são muito capazes; é que nossa capacidade de avaliá-los e defendê-los está defasada. E como operador, isso me preocupa mais do que qualquer métrica de sucesso.
Conclusão
O Claude Mythos quebrou o termômetro. Agora precisamos de um novo. Enquanto isso, quem opera sistemas de IA ou segurança cibernética precisa agir com a consciência de que as ferramentas de medição são insuficientes e os riscos reais, não teóricos. Você já revisou seus processos de avaliação hoje?
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário