Encontrar vulnerabilidades em código proprietário como o Windows sempre foi um pesadelo para times de segurança. O código é fechado, o treinamento público de modelos não cobre essas bases, e o custo de uma falha crítica pode ser enorme. A Microsoft resolveu testar uma abordagem diferente: em vez de usar um único modelo de IA, criou um ecossistema com mais de 100 agentes especializados que discutem entre si para achar bugs.
O sistema, chamado MDASH (Multi-Model Agentic Scanning Harness), foi revelado em um post da empresa no Patch Tuesday de maio de 2026. Nele, 16 novas vulnerabilidades foram descobertas no stack de rede e autenticação do Windows, sendo quatro classificadas como críticas. Elas incluem execução remota de código no componente tcpip.sys, no serviço IKEv2 (ikeext.dll), no netlogon.dll e no dnsapi.dll. Dez das 16 são no modo kernel e a maioria é acessível pela rede sem autenticação. Um alerta e tanto.
O MDASH funciona em um pipeline de quatro estágios. Primeiro, o sistema analisa o código-fonte e mapeia a superfície de ataque. Depois, agentes auditores especializados varrem o código em busca de áreas suspeitas. Na terceira etapa, um segundo grupo de agentes, chamados de 'debaters', argumenta a favor e contra a exploração de cada achado. Eles duplicam e refinam os resultados. Por fim, agentes de evidência tentam disparar a vulnerabilidade com entradas específicas. Tudo orquestrado por um framework agnóstico a modelo: quando um novo modelo surge, basta trocar a configuração para testá-lo contra o anterior.
A arquitetura é interessante porque permite que especialistas injetem conhecimento de domínio por meio de plugins. Coisas como convenções de chamadas de kernel ou limites de confiança de IPC que nenhum modelo fundacional conhece sozinho. Isso faz diferença em bases de código proprietárias como Windows, Hyper-V e Azure, que não fazem parte dos dados de treinamento públicos.
Na prática, quem ganha são empresas que precisam auditar código fechado de forma contínua. Times de segurança podem adotar uma abordagem semelhante para automatizar parte do trabalho de bug hunting. Mas atenção: não é um sistema plug-and-play. Exige configurar plugins, escolher modelos adequados e entender o pipeline. Empresas menores podem achar o custo de rodar mais de 100 agentes proibitivo. Já quem perde são atacantes que dependiam de falhas desconhecidas no Windows. A Microsoft basicamente colocou um exército de IAs para patrulhar o código 24/7.
O MDASH atingiu 88,45% no benchmark CyberGym, que contém 1.507 vulnerabilidades reais. É o melhor resultado até agora, cerca de cinco pontos à frente do segundo colocado. Mas a comparação não é justa: estão comparando um framework inteiro com modelos individuais. Se os modelos concorrentes fossem colocados dentro de um harness similar, o resultado poderia ser diferente. A Microsoft não revelou quais modelos específicos usou, apenas menciona 'SOTA models' como raciocinadores pesados, 'distilled models' como debatedores de baixo custo, e um 'segundo SOTA model' independente. Fica no ar se são modelos próprios, da OpenAI, da Anthropic ou de terceiros.
Aí vem a tensão real: vale a pena o custo computacional de orquestrar mais de 100 agentes? Se um único modelo forte já consegue achar a maioria das falhas, o overhead do MDASH pode não se justificar. Por outro lado, o debate entre agentes pode reduzir falsos positivos e aumentar a cobertura. A pergunta é: isso escala para bases de código menores ou é algo só para gigantes como Microsoft? Sem transparência sobre os modelos e custos, fica difícil para outros times replicarem a abordagem.
No fim, o MDASH é um passo interessante para segurança automatizada, mas ainda parece uma solução de luxo. A pergunta que fica: quanto tempo até vermos frameworks similares open source, ou até mesmo a Microsoft disponibilizar isso como serviço para todos os desenvolvedores?
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário