O problema de medir modelos abertos
Todo mês surge uma enxurrada de modelos abertos. Este mês não foi diferente: Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5 e outros. Mas a pergunta que não quer calar é: eles estão realmente atrás dos modelos fechados? O Center for AI Standards and Innovation (CAISI) diz que sim, e que o gap está aumentando. Mas será que os benchmarks contam toda a história?
O fato
O CAISI publicou uma avaliação dos modelos abertos mais recentes, usando uma abordagem de Teoria de Resposta ao Item (IRT) para calcular um Elo. Foram nove benchmarks, incluindo CTF-Archive-Diamond, PortBench e ARC-AGI-2. O resultado: DeepSeek V4 ficou com uma pontuação Elo muito inferior, puxada por resultados ruins nesses três testes. A diferença em relação aos modelos fechados americanos seria de 3 a 7 meses, segundo o ECI da Epoch AI.
Como funciona (visão de operador)
A metodologia do CAISI usa um setup padronizado: acesso a bash e um loop com orçamento fixo de tokens. Sem harnesses como Claude Code ou OpenCode. Sem prompting específico do modelo. Isso é um problema porque muitos modelos abertos são treinados para usar ferramentas específicas. Forçar um modelo a resolver uma tarefa de portabilidade de código sem seu harness preferido é como testar um piloto de F1 num kart. A inferência é barata – DeepSeek V4 é conhecido por ser eficiente – mas a latência de um loop com tokens fixos pode subestimar a capacidade real.
O que isso muda na prática
Quem ganha? Empresas que usam modelos fechados podem se sentir confortáveis. Quem perde? Desenvolvedores que confiam cegamente nos rankings. A ação prática é simples: ao avaliar um modelo aberto, use o ambiente de inferência que ele foi desenhado para. Teste com o mesmo harness que você usará em produção. E não se esqueça de ajustar o prompting – alguns modelos respondem melhor a estilos específicos.
Tensão / Reflexão
Mas será que vale a pena esse esforço? O custo de eliciar o melhor desempenho de cada modelo pode ser alto. E se, mesmo assim, o gap ainda for grande? Talvez o verdadeiro gargalo não seja o modelo, mas a infraestrutura de avaliação. O debate entre Nathan e Florian do Interconnects ilustra bem essa tensão: um acredita que os benchmarks são justos, o outro que os modelos abertos são melhores do que parecem. No fim, a única certeza é que a régua ainda não está calibrada.
Conclusão
Os lançamentos deste mês mostram que os modelos abertos estão evoluindo rápido, mas a forma como medimos essa evolução precisa evoluir junto. Antes de descartar um DeepSeek V4 ou Gemma 4 por causa de um Elo baixo, pergunte-se: o teste realmente reflete o meu uso?
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário