Modelo de 122B em 48GB: a promessa da edge AI

Modelo de 122B em 48GB: a promessa da edge AI

O problema que todo operador conhece

Quem ja tentou rodar um modelo de linguagem grande em um robo sabe o drama. O hardware nao aguenta, a latencia explode, e a solucao geralmente e reduzir o modelo ate ele perder a graca. Por isso a noticia da General Instinct chama atencao: eles conseguiram comprimir um modelo de fronteira de 122 bilhoes de parametros para rodar em hardware de borda, com desempenho superior a concorrentes menores.

O fato: modelo de 245 GB vira 48 GB

A General Instinct, startup do Y Combinator P26, open-sourcou o InstinctRazor, um framework de compressao que encaixou o Qwen3.5-122B-A10B – um modelo MoE de 245 GB em BF16 – em apenas 48 GiB de GGUF. O resultado e um modelo que, mesmo menor que o Gemma-4-26B-A4B, supera benchmarks como MMLU-Pro e GPQA-D. Ou seja, nao e so um truque de compressao; a performance foi mantida e, em alguns casos, melhorada.

Como funciona: o olho do operador

Em modelos MoE (Mixture of Experts), nem todos os parametros sao ativados a cada token. A General Instinct aproveitou isso: manteve as partes sempre ativas – router, norms, camadas Gated-DeltaNet/SSM, via visual – em alta precisao, e quantizou os experts roteados de forma agressiva. Depois, usaram destilacao on-policy para recuperar a capacidade perdida na quantizacao. O resultado pratico: com um contexto de 8k tokens, o pico de VRAM fica entre 7,6 e 8 GB. Isso significa que o modelo roda em uma GPU de medio porte, como uma RTX 4080, ou ate em placas profissionais mais antigas.

Eles tambem disponibilizam uma configuracao small GPU, onde os experts sao streamados da RAM do sistema, reduzindo ainda mais o uso de VRAM. A latencia? Nao divulgaram numeros, mas a troca de experts via PCIe deve ficar na casa de milissegundos, aceitavel para robotica.

Detalhes tecnicos

O Qwen3.5-122B-A10B e um modelo MoE com 10 experts ativos por token, dos quais 10B parametros sao ativados. A General Instinct preservou os layers nao roteados (router, normas, camadas SSM) em 16 bits, enquanto os experts foram quantizados para uma media de 3,5 bits usando bitsandbytes e calibracao com dataset proprietario. O resultado em GGUF ficou com 48 GiB. Para comparacao, o Gemma-4-26B-A4B tem 26B parametros ativos e 4 experts ativos, mas mesmo com mais parametros ativos, o Qwen comprimido supera em MMLU-Pro (74.2 vs 71.8) e GPQA (36.5 vs 33.2).

O que isso muda na pratica

Quem ganha: times de robotica, drones, sistemas embarcados e qualquer aplicacao que precise de inferencia local com modelos grandes. A privacidade dos dados e a baixa latencia viram argumentos fortes contra solucoes em nuvem.

Quem perde: vendedores de hardware high-end (H100, A100) e servicos de nuvem que cobram caro por poder computacional. Se um modelo de 122B cabe em 48 GB, a demanda por chips gigantes pode diminuir.

Acao pratica: Se voce trabalha com modelos MoE, teste o InstinctRazor. O codigo esta no GitHub. A compressao e agressiva, mas os benchmarks indicam que o custo em qualidade pode ser aceitavel para muitos cenario.

A motivacao veio da robotica, onde modelos precisam rodar localmente por latencia e confiabilidade. Com o InstinctRazor, um robo pode carregar um modelo de fronteira sem precisar de servidor externo. A startup esta especialmente interessada em feedback de quem tenta rodar modelos em dispositivos reais.

A tensao: compensa mesmo?

Olhando de perto, a compressao de 245 GB para 48 GB significa uma relacao de 5:1. A maior parte vem da quantizacao dos experts para menos de 4 bits em media. Isso funciona bem para tarefas de raciocinio e conhecimento, mas pode degradar em tarefas que exigem precisao numerica ou nuancias de linguagem. O benchmark nao conta toda a historia. Em cenario reais, vale a pena testar com os proprios dados.

Outro ponto: a destilacao on-policy e cara. Rodar o modelo original para gerar labels e depois treinar o comprimido exige poder computacional e tempo. Nao e um processo trivial. Startups com poucos recursos podem nao conseguir replicar o feito facilmente.

Conclusao

A General Instinct mostrou que a fronteira nao esta presa aos datacenters. Com compressao inteligente e tecnicas de destilacao, modelos gigantes cabem no bolso do robo. A pergunta que fica: sera que essa abordagem vai se tornar padrao, ou cada operador vai precisar de um time de pesquisa para replicar o resultado? O open-source do InstinctRazor e um bom comeco.

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário