Inteligência Artificial 01 Jun, 2026 • Filippe Barreto Sims • 2

MiniMax M3: contexto de 1 milhão de tokens em modelo aberto

O gargalo do contexto longo

Quem já tentou usar um modelo de linguagem para analisar uma base de código enorme ou documentos extensos conhece o drama: ou o contexto é curto demais para capturar as dependências, ou o custo computacional vai pelos ares com mecanismos de atenção tradicionais. A MiniMax, empresa chinesa de IA, acabou de soltar o M3, um modelo open-weight que promete quebrar esse dilema com uma janela de 1 milhão de tokens e desempenho competitivo com líderes proprietários.

O fato

O M3 é anunciado como o primeiro modelo aberto a combinar codificação de alto nível, multimodalidade nativa e contexto de 1 milhão de tokens. Segundo a MiniMax, essa tríade era até agora privilégio de sistemas fechados como Opus 4.7, GPT-5.5 e Gemini 3.1 Pro. Em benchmarks como SWE-Bench Pro, o M3 atinge 59% de acerto, superando GPT-5.5 e Gemini 3.1 Pro, e ficando atrás apenas do Opus 4.7 (que já ganhou uma versão 4.8). Em tarefas de navegação web autônoma (BrowseComp), o M3 marca 83.5 pontos, contra 79.3 do Opus 4.7. Os pesos do modelo serão publicados em breve; a API já está disponível.

Como funciona: atenção esparsa na prática

O segredo técnico está no mecanismo chamado MiniMax Sparse Attention. Em vez de calcular a atenção sobre todos os tokens da sequência – que escala quadraticamente – o modelo identifica blocos de dados relevantes e processa apenas esses. A MiniMax afirma que isso reduz o custo computacional para um vigésimo e acelera o processamento de entrada em mais de 9 vezes. Do ponto de vista de quem opera, isso significa que um contexto de 1 milhão de tokens se torna viável em hardware acessível, sem precisar de clusters monstruosos. A arquitetura foi treinada com dados intercalados (texto e imagem na mesma sequência), o que exigiu uma reformulação do pipeline de dados para escalar até 100 trilhões de tokens.

O que isso muda na prática

Para desenvolvedores, a principal vantagem é executar tarefas de longa duração sem intervenção. A MiniMax testou o M3 em três cenários: reprodução autônoma de um artigo científico (12 horas, 18 commits, 23 figuras), otimização de kernel CUDA para GPUs Hopper (de 7.6% para 71.3% de utilização em 24 horas) e treinamento independente de quatro modelos base (PostTrainBench). Esses testes mostram que o modelo consegue planejar, depurar e se autocorrigir ao longo de horas. Para quem constrói ferramentas de automação de software, isso abre portas: é possível delegar tarefas complexas que antes exigiam supervisão constante.

Por outro lado, o custo por token ainda precisa ser avaliado. A API da MiniMax provavelmente cobrará por token, e embora a atenção esparsa reduza o custo, contextos de 1 milhão de tokens podem gerar faturas altas se usados sem critério. O modelo é open-weight, o que permite rodar localmente, mas aí o gargalo vira memória: 1 milhão de tokens em FP16 ocupam cerca de 2 GB só de embeddings, sem contar os pesos do transformer. Empresas com infraestrutura modesta podem ter dificuldade.

Tensão: escala ou gargalo?

A grande dúvida é se a atenção esparsa realmente mantém a qualidade com contextos extremamente longos. A MiniMax mostrou resultados impressionantes em benchmarks internos, mas falta validação independente. Além disso, o modelo foi treinado com dados intercalados – será que a atenção esparsa captura bem relações distantes que dependem de contexto fino? Outra questão: o M3 supera modelos proprietários em tarefas específicas, mas ainda fica atrás do Opus 4.7 em SWE-Bench. Será que a vantagem do contexto longo compensa em fluxos de trabalho reais, ou é mais um caso de benchmark que não reflete a prática?

O fato de ser open-weight é um diferencial competitivo, mas também levanta preocupações sobre uso indevido. Modelos com 1 milhão de tokens podem ser usados para analisar bases de dados inteiras de uma vez, o que é um poder e tanto nas mãos erradas. A MiniMax não mencionou restrições de uso.

Conclusão

O M3 é um passo importante para democratizar contextos longos, mas ainda há perguntas abertas sobre custo real, qualidade em cenários diversos e governança. Para quem está construindo sobre IA, vale a pena testar a API e, se possível, rodar os pesos localmente para sentir a latência e a qualidade. A pergunta que fica: qual o preço real de um contexto tão longo? E se o modelo começar a esquecer o início depois de tantos tokens?