Meta Lança Maverick: Versão Experimental do Llama 4 Surpreende no LM Arena
No último sábado, a Meta apresentou o Maverick, uma das novas versões do seu modelo de inteligência artificial Llama 4. O Maverick se destacou ao alcançar a segunda posição no LM Arena, uma plataforma onde avaliadores humanos comparam as respostas de diferentes modelos de IA e escolhem suas preferências.
No entanto, uma descoberta intrigante veio à tona: a versão do Maverick testada no LM Arena é diferente daquela disponibilizada aos desenvolvedores. Segundo a Meta, a versão utilizada no LM Arena é uma “versão experimental de chat”, otimizada para conversacionalidade, conforme revelado no site oficial do Llama.
Essa prática de ajustar modelos para benchmarks específicos levanta questões sobre a transparência e a confiabilidade dos testes. Vários pesquisadores de IA apontaram no X (antigo Twitter) que a versão pública do Maverick se comporta de maneira distinta daquela no LM Arena, com a versão do Arena utilizando muitos emojis e respostas mais extensas.
A customização de modelos para se adequarem a benchmarks pode dificultar a previsão do desempenho em contextos reais e pode ser enganosa. Idealmente, benchmarks deveriam oferecer uma visão clara das forças e fraquezas de um modelo em diversas tarefas.
A Meta e a organização por trás do LM Arena foram contatadas para comentar sobre essas discrepâncias.