Inteligência Artificial 03 Jun, 2026 • Filippe Barreto Sims • 2

Qwen3.5 35B A3B uncensored: MTP total preservado e formatos NVFP4

Você já tentou rodar um modelo local e descobriu que ele se recusa a responder algo que você considera inofensivo? A censura em LLMs virou um baita gargalo para quem quer explorar os limites da tecnologia. Pois bem, um novo lançamento promete acabar com isso: o Qwen3.5 35B A3B uncensored heretic, que mantém intactos todos os 785 MTPs (Multi-Token Prediction heads) do modelo original. E não é só isso: ele já está disponível em formatos que vão de Safetensors a NVFP4.

O Fato

O usuário llmfan46 publicou no Hugging Face uma versão sem censura do Qwen3.5 35B A3B, chamada de 'heretic'. O diferencial é que todos os 785 MTPs nativos foram preservados, algo que muitas versões alternativas costumam podar para reduzir tamanho. Os pesos estão disponíveis em Safetensors, GGUFs, NVFP4 (incluindo versão GGUF) e GPTQ-Int4. Isso significa que você pode rodar o modelo em praticamente qualquer setup, de GPUs NVIDIA a CPUs.

Como Funciona (Visão de Operador)

Para quem não está familiarizado, o MTP é uma técnica introduzida no Qwen3.5 que permite ao modelo prever múltiplos tokens de uma só vez durante a inferência. Na prática, isso acelera a geração e melhora a coerência. Preservar todos os 785 MTPs significa que a arquitetura original não foi alterada: cada cabeça de predição continua ativa. Isso tem impacto direto na latência e no uso de memória. Em termos de custo, um modelo de 35B parâmetros com 3B ativos (A3B) já é relativamente leve, mas com todos os MTPs, o consumo de VRAM pode ser maior do que versões que cortam algumas cabeças. Os formatos disponíveis cobrem bem o espectro: Safetensors para frameworks como transformers, GGUFs para llama.cpp (roda em CPU), NVFP4 para GPUs que suportam ponto flutuante de 4 bits (como Blackwell) e GPTQ-Int4 para quantização mais tradicional. Vale notar que o NVFP4 é um formato recente e pode exigir drivers ou bibliotecas atualizadas.

O Que Isso Muda na Prática

Para entusiastas de modelos abertos, essa versão é um prato cheio. Quem constrói aplicações que exigem respostas sem filtros – seja para roleplay, pesquisa ou geração criativa – agora tem um modelo base forte e sem amarras. A ação prática aqui é simples: baixe o GGUF (ou NVFP4 se tiver GPU compatível) e teste com o llama.cpp. A performance deve ser similar à do Qwen3.5 oficial, mas sem os bloqueios de conteúdo. Quem perde? Provedores de API que vendem acesso a modelos censurados – se a versão local roda bem, a demanda por APIs pagas pode cair.

Mas Cuidado

Modelos sem censura trazem riscos. O mesmo poder que permite gerar ficção irrestrita também pode ser usado para conteúdo problemático. Cabe a cada operador decidir os limites. Não há guardrails embutidos aqui.

Tensão / Reflexão

A grande questão: preservar todos os 785 MTPs realmente compensa? Em benchmarks, versões com MTPs reduzidos muitas vezes mostram quedas mínimas de qualidade. Manter tudo pode aumentar o consumo de memória em 10-20%. Para quem roda em hardware limitado, talvez seja melhor usar uma versão com menos cabeças. Além disso, o formato NVFP4 é promissor, mas ainda não tem suporte amplo – você pode acabar travado em problemas de compatibilidade. Isso escala? Depende. Para um único usuário com GPU high-end, sim. Para servir múltiplos usuários, talvez a eficiência dos MTPs compense, mas o custo de VRAM extra pode apertar.

Conclusão

O Qwen3.5 35B A3B uncensored heretic é mais um passo na direção de modelos abertos sem amarras. Ele entrega o que promete: MTP total e múltiplos formatos. Mas a decisão de usar ou não passa por um trade-off entre liberdade e responsabilidade – e também entre desempenho e memória. Você está disposto a pagar o preço computacional por um modelo que não se cala?