Inteligência Artificial 28 May, 2026 • Filippe Barreto Sims • 1

MiniMax-M2: 9,8B ativos contra 229,9B totais?

O problema de sempre: custo vs. capacidade

Todo operador que já tentou rodar um modelo de fronteira sabe o drama: ou você paga uma fortuna por inferência com todos os parâmetros ativos, ou sacrifica qualidade para caber no orçamento. A MiniMax acaba de publicar a série M2, uma família de modelos MoE (Mixture-of-Experts) que tenta quebrar esse trade-off. O carro-chefe tem 229,9 bilhões de parâmetros totais, mas ativa apenas 9,8 bilhões por token. Números impressionantes, mas o que importa é se isso entrega na prática.

O fato: um modelo MoE com foco em agentes

O MiniMax-M2 não é mais um LLM genérico. Ele foi desenhado do zero para tarefas agênticas – coding, deep search, office tasks – e vem acompanhado de um sistema de treinamento chamado Forge. O checkpoint mais recente, M2.7, dá um passo em direção à auto-evolução: o modelo consegue depurar seus próprios runs de treinamento e modificar seu scaffold. Isso soa quase ficção, mas está no paper.

Como funciona (visão de operador)

Arquitetura MoE com 229,9B totais e 9,8B ativos significa que, a cada token, apenas 4,3% dos parâmetros são usados. Isso reduz drasticamente o custo de inferência – teoricamente, você pode rodar um modelo de fronteira com latência e memória de um modelo de ~10B denso. A mágica está no sistema Forge: ele usa pipelines de dados orientados por agentes para gerar trajetórias verificáveis em ambientes executáveis, combinados com um sistema de recompensa alinhado a artefatos. O scheduling FIFO com janelas e a fusão de prefix trees otimizam o treinamento em longas sequências de agentes. Importante: o Forge suporta tanto agentes white-box quanto black-box, o que é raro na prática.

O que isso muda na prática

Quem ganha: times que precisam de modelos para ferramentas agênticas (coding, automação de escritório) e têm orçamento apertado. Com 9,8B ativos, dá para hospedar em GPUs de consumo ou clusters menores. Quem perde: modelos densos no mesmo patamar de ativação – o M2 promete performance superior com menos recursos. Ação prática: se você trabalha com agentes de código, vale testar o M2 em tarefas de debugging e geração de código. O artigo menciona benchmarks em agentic coding e deep search – foque nesses primeiros.

Tensão: escala, custo e auto-evolução

Uma dúvida real: o sistema de auto-evolução (M2.7) é promissor, mas como garantir que o modelo não introduza bugs sutis ao modificar seu próprio scaffold? E o custo do treinamento? 229,9B parâmetros mesmo que esparsos exigem infra pesada para treinar. O paper não detalha o custo total de treinamento, mas MoEs são notoriamente complexos de balancear entre especialistas. Outra questão: a ativação mínima funciona bem para tarefas que exigem conhecimento amplo e raso, mas pode falhar em raciocínio profundo onde ativar mais especialistas é necessário. O M2 é um avanço, mas não resolve o gargalo de alocação de especialistas em MoE.

Conclusão

MiniMax-M2 mostra que é possível obter performance de fronteira com ativação mínima, desde que você projete o ecossistema de treinamento e inferência em volta. O Forge é tão importante quanto o modelo. A pergunta que fica: será que a auto-evolução vai realmente reduzir o trabalho humano de fine-tuning ou criar uma nova camada de complexidade?