NVIDIA Gemma-4 NVFP4: 26B com 4B ativos rodando local

NVIDIA Gemma-4 NVFP4: 26B com 4B ativos rodando local

O gargalo da VRAM nunca some

Quem roda modelo grande local sabe: o limite não é a capacidade do modelo, é quanta VRAM você tem. Ficar preso entre um modelo pequeno que não resolve o problema e um grande que não cabe. NVIDIA acabou de soltar o Gemma-4-26B-A4B-NVFP4 no Hugging Face, e a proposta parece um meio-termo cruelmente necessário: 26 bilhões de parâmetros totais, mas apenas 4 bilhões ativos por token, em precisão NVFP4. O modelo ocupa 18.8 GB e roda em uma RTX 5090 com 32 GB, sobrando espaço para uns 50k tokens de contexto.

O que é esse NVFP4

Antes de falar de performance, vale entender a quantização. NVFP4 é um formato de 4 bits da NVIDIA, que tenta manter mais precisão que INT4 tradicional usando ponto flutuante. Na prática, o modelo baixado tem 18.8 GB, contra uns 50 GB do FP16 original. A ativação esparsa (só 4B ativos) reduz ainda mais o custo computacional. Você não precisa ter 26B de VRAM, só 4B de compute por token. Isso é arquitetura MoE (Mixture of Experts) bem aplicada: cada token ativa apenas alguns especialistas.

Benchmarks: perda mínima

Os números divulgados pela NVIDIA impressionam pela consistência. GPQA Diamond caiu de 80.30% para 79.90% (0.4% perda). AIME 2025 subiu de 88.95% para 90.00% (sim, subiu). MMLU Pro perdeu 0.2%. LiveCodeBench pass@1 caiu 0.7%. IFBench e IFEval praticamente iguais. Se isso se confirmar em testes independentes, estamos falando de uma compressão que praticamente não degrada o modelo.

Como funciona na prática

Um usuário no Reddit confirmou: funciona em RTX 5090 com 80% de alocação dos 32 GB, conseguindo cerca de 50k de contexto. Isso significa que você pode rodar localmente um modelo de 26B com capacidade próxima ao full precision, consumindo menos VRAM que muitos modelos de 7B em FP16. A inferência deve ser rápida o suficiente para uso interativo, já que apenas 4B de parâmetros são ativados por token. Em termos de custo, se você já tem uma GPU com 24-32 GB, o custo adicional é zero. Sem nuvem, sem API paga.

O que isso muda

Quem ganha de cara: desenvolvedores que precisam de um modelo robusto para tarefas complexas (raciocínio, código, instruções) mas não querem depender de servidor externo. Também ganha quem faz fine-tuning ou precisa de privacidade de dados. Quem perde: provedores de API de modelos fechados que cobram por token, porque esse modelo local compete diretamente com GPT-4 em várias tarefas. A ação prática agora: baixar o modelo do Hugging Face e testar no seu hardware. Se você tem 24 GB ou mais, pode substituir chamadas de API caras por inferência local.

Mas escala?

A pergunta que não quer calar: isso funciona em GPUs de 24 GB tipo RTX 4090? O modelo tem 18.8 GB, mas o contexto come memória. 50k tokens com 32 GB, mas com 24 GB talvez sobre menos. E a latência? Com 4B ativos, a inferência deve ser rápida, mas ainda depende do tamanho total do modelo para carregar os pesos. O gargalo pode ser a largura de banda da memória. Outro ponto: a quantização NVFP4 é proprietária? Se for, pode limitar a adoção em ferramentas open source como llama.cpp e vLLM. Precisamos ver suporte na comunidade. Enfim, resolve o problema de VRAM, mas move o gargalo para memória e suporte de software.

Conclusão

O Gemma-4 NVFP4 é um passo concreto para tornar modelos grandes viáveis em hardware consumer. A perda de precisão é irrisória, o tamanho é gerenciável. Agora depende do ecossistema abraçar o formato. Se você tem GPU com 24 GB ou mais, vale o teste. E aí, troca sua assinatura de API por uma inferência local?

Fonte: Hugging Face - nvidia/Gemma-4-26B-A4B-NVFP4

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário