Gemma 4 e DeepSeek V4: o verdadeiro gap?

Gemma 4 e DeepSeek V4: o verdadeiro gap?

O problema de medir modelos abertos

Todo mês surge uma enxurrada de modelos abertos. Este mês não foi diferente: Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5 e outros. Mas a pergunta que não quer calar é: eles estão realmente atrás dos modelos fechados? O Center for AI Standards and Innovation (CAISI) diz que sim, e que o gap está aumentando. Mas será que os benchmarks contam toda a história?

O fato

O CAISI publicou uma avaliação dos modelos abertos mais recentes, usando uma abordagem de Teoria de Resposta ao Item (IRT) para calcular um Elo. Foram nove benchmarks, incluindo CTF-Archive-Diamond, PortBench e ARC-AGI-2. O resultado: DeepSeek V4 ficou com uma pontuação Elo muito inferior, puxada por resultados ruins nesses três testes. A diferença em relação aos modelos fechados americanos seria de 3 a 7 meses, segundo o ECI da Epoch AI.

Como funciona (visão de operador)

A metodologia do CAISI usa um setup padronizado: acesso a bash e um loop com orçamento fixo de tokens. Sem harnesses como Claude Code ou OpenCode. Sem prompting específico do modelo. Isso é um problema porque muitos modelos abertos são treinados para usar ferramentas específicas. Forçar um modelo a resolver uma tarefa de portabilidade de código sem seu harness preferido é como testar um piloto de F1 num kart. A inferência é barata – DeepSeek V4 é conhecido por ser eficiente – mas a latência de um loop com tokens fixos pode subestimar a capacidade real.

O que isso muda na prática

Quem ganha? Empresas que usam modelos fechados podem se sentir confortáveis. Quem perde? Desenvolvedores que confiam cegamente nos rankings. A ação prática é simples: ao avaliar um modelo aberto, use o ambiente de inferência que ele foi desenhado para. Teste com o mesmo harness que você usará em produção. E não se esqueça de ajustar o prompting – alguns modelos respondem melhor a estilos específicos.

Tensão / Reflexão

Mas será que vale a pena esse esforço? O custo de eliciar o melhor desempenho de cada modelo pode ser alto. E se, mesmo assim, o gap ainda for grande? Talvez o verdadeiro gargalo não seja o modelo, mas a infraestrutura de avaliação. O debate entre Nathan e Florian do Interconnects ilustra bem essa tensão: um acredita que os benchmarks são justos, o outro que os modelos abertos são melhores do que parecem. No fim, a única certeza é que a régua ainda não está calibrada.

Conclusão

Os lançamentos deste mês mostram que os modelos abertos estão evoluindo rápido, mas a forma como medimos essa evolução precisa evoluir junto. Antes de descartar um DeepSeek V4 ou Gemma 4 por causa de um Elo baixo, pergunte-se: o teste realmente reflete o meu uso?

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário