IBM Granite 4.1: LLMs dense de 30B com contexto de 512K tokens

IBM Granite 4.1: LLMs dense de 30B com contexto de 512K tokens

O que é o Granite 4.1

A IBM lançou a família Granite 4.1 de LLMs, com modelos densos decoder-only de 3B, 8B e 30B parâmetros. Treinados em ~15 trilhões de tokens com um pipeline de pré-treinamento em cinco fases, eles suportam contexto de até 512K tokens. O destaque técnico está na arquitetura densa: o modelo de 8B instruído supera o antecessor Granite 4.0-H-Small, que era um MoE de 32B com 9B ativos, usando menos parâmetros e uma estrutura mais simples.

Como funciona o pipeline de treinamento

O treinamento é dividido em cinco fases. As fases 1 e 2 são pré-treinamento geral e focado em matemática/código, usando 12 trilhões de tokens no total. A fase 1 (10T tokens) usa mistura ampla com ~59% de CommonCrawl, 20% código, 7% matemática. A fase 2 (2T tokens) aumenta drasticamente a proporção de matemática (35%) e código (30%).

Nas fases 3 e 4, o modelo passa por um recozimento com dados de alta qualidade, totalizando 2,5T tokens. Aqui entram cadeias de pensamento longas (12,5%) e dados de instrução. A fase 5 estende o contexto para 512K tokens, usando técnicas de extensão de contexto longo.

O pós-treinamento inclui fine-tuning supervisionado em ~4,1M amostras curadas e reinforcement learning com GRPO on-policy usando perda DAPO (Yu et al., 2025). Isso reforça habilidades em matemática, código, seguir instruções e conversação geral.

O que isso muda na prática

Para quem constrói sistemas com LLMs, o Granite 4.1 oferece uma alternativa aberta (Apache 2.0) com desempenho competitivo, especialmente no modelo de 8B que supera o MoE de 32B da geração anterior. A janela de contexto de 512K tokens é útil para análise de documentos longos, como contratos ou bases de código inteiras.

A ação prática imediata: baixar os modelos no Hugging Face, testar o 8B instruído em tarefas de sua stack e comparar custo/latência com alternativas como Llama 3 ou Mistral. O fato de ser denso e menor pode reduzir requisitos de hardware e custo operacional.

Quem ganha: equipes que precisam de modelos open-source com boa performance em tarefas de raciocínio e suporte a contexto longo. Quem perde: provedores de APIs proprietárias, se a adoção do Granite 4.1 crescer.

Tensão: denso vs MoE

A IBM optou por arquitetura densa em vez de MoE, mesmo tendo experiência com MoE na geração anterior. Isso reduz complexidade de implantação e latência, mas levanta dúvidas: modelos densos escalam tão bem quanto MoE em tarefas muito grandes? O 8B substituir o 32B-MoE sugere que a qualidade dos dados importa mais que a arquitetura, mas ainda não vimos benchmarks em cenários de produção massivos. O custo do treinamento de 15T tokens é alto; será que a IBM conseguirá manter o ritmo de atualização?

Conclusão

Granite 4.1 é um avanço sólido da IBM no espaço de LLMs abertos, combinando dados curados, pipeline multiestágio e contexto longo. A pergunta que fica: em seis meses, a comunidade terá incorporado esses modelos em fluxos reais, ou eles ficarão como mais uma opção em um mar de modelos? Fonte original: Hugging Face blog.

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário