Meta Nega Rumores de Manipulação em Benchmark de IA
Na segunda-feira, um executivo da Meta negou veementemente um rumor que circulava sobre a empresa ter treinado seus novos modelos de IA, Llama 4 Maverick e Llama 4 Scout, para se destacarem em benchmarks específicos, enquanto ocultavam as fraquezas dos modelos.
Ahmad Al-Dahle, Vice-Presidente de IA Generativa da Meta, afirmou em uma postagem no X que é “simplemente falso” que a Meta tenha treinado seus modelos em “conjuntos de teste”. Nos benchmarks de IA, os conjuntos de teste são coleções de dados usados para avaliar o desempenho de um modelo após seu treinamento. Treinar em um conjunto de teste pode inflar de forma enganosa as pontuações de benchmark de um modelo, fazendo com que ele pareça mais capaz do que realmente é.
O rumor, que começou a circular no fim de semana no X e no Reddit, parece ter se originado de uma postagem em um site de mídia social chinesa, de um usuário que alegou ter renunciado da Meta em protesto contra as práticas de benchmarking da empresa.
Relatórios de que Maverick e Scout apresentam desempenho ruim em certas tarefas alimentaram o rumor, assim como a decisão da Meta de usar uma versão experimental e não lançada do Maverick para obter melhores pontuações no benchmark LM Arena. Pesquisadores no X observaram diferenças marcantes no comportamento do Maverick disponível para download público em comparação com o modelo hospedado no LM Arena.
Al-Dahle reconheceu que alguns usuários estão vendo “qualidade mista” do Maverick e Scout entre os diferentes provedores de nuvem que hospedam os modelos.
“Como lançamos os modelos assim que estavam prontos, esperamos que leve alguns dias para que todas as implementações públicas sejam ajustadas”, disse Al-Dahle. “Continuaremos trabalhando em nossas correções de bugs e na integração de parceiros.”