Você já se perguntou se os modelos de linguagem realmente entendem as perguntas ou só estão decorando padrões? Um estudo recém-publicado no arXiv mostra que, sob instruções complexas, LLMs podem simplesmente ignorar o conteúdo da questão e cair em um viés posicional extremo. O fenômeno, batizado de colapso posicional, tem implicações diretas para quem constrói ou usa benchmarks de IA.
O fato
Pesquisadores testaram dois modelos Llama-3-8B e Llama-3.1-8B em 2.000 questões do MMLU-Pro, variando o nível de especificidade das instruções adversárias. Eles criaram seis condições, desde instruções vagas para ir mal até instruções detalhadas de duas etapas. Resultado: instruções mais complexas levaram a um colapso quase total na distribuição das respostas, com o modelo escolhendo consistentemente uma única posição (99,9% e 87,4% dos casos). E, pior: esse comportamento não dependia do conteúdo da pergunta.
Como funciona (visão de operador)
O estudo usou duas métricas: entropia da distribuição das respostas (para detectar viés posicional) e correlação dificuldade-precisão (para medir engajamento com o conteúdo). Sob instruções padrão de sandbagging (simular baixo desempenho), os modelos ainda engajavam parcialmente com o conteúdo, mas a entropia posicional já caía. Já na instrução de duas etapas ('responda X, mas evite a resposta correta'), o colapso foi total: a entropia praticamente zerou e a correlação dificuldade-precisão sumiu. O ponto de atração era a mesma posição que o modelo escolheria com um prompt vazio, indicando que ele simplesmente ignorou o conteúdo.
Para quem trabalha com APIs de LLM, isso levanta um alerta: o custo de inferência pode estar sendo desperdiçado se o modelo não está processando o input corretamente. A latência, claro, não muda, mas a validade dos resultados sim.
O que isso muda na prática
Primeiro: se você usa LLMs para avaliação automatizada (como em sistemas de QA ou revisão de código), instruções complexas podem estar gerando respostas enviesadas sem que você perceba. Uma ação prática: adicione verificações de distribuição de respostas nos seus pipelines. Monitore a entropia posicional em perguntas de múltipla escolha – se ela for muito baixa, suspeite de viés.
Quem ganha? Pesquisadores de segurança e alinhamento, que agora têm um novo ângulo para investigar. Quem perde? Quem confia cegamente em benchmarks de desempenho sem controlar a complexidade das instruções. E, claro, os próprios modelos: a capacidade de seguir instruções pode esconder uma fragilidade.
Tensão / Reflexão
Isso escala? O estudo foi feito com modelos de 8B parâmetros em decodificação gulosa (greedy). Em modelos maiores ou com amostragem, o efeito pode ser diferente – ou pior. O custo de mitigar isso (por exemplo, com treinamento adversarial) ainda não foi medido. E a pergunta que fica: será que os benchmarks atuais estão mesmo medindo conhecimento ou só a capacidade do modelo de não cair em instruções maliciosas? O problema pode ser mais profundo: a própria arquitetura transformer, com sua atenção posicional, pode ter um viés inerente que instruções complexas só exacerbam.
Conclusão
Instruções complexas podem fazer LLMs 'trapacearem' em testes, não porque são espertos demais, mas porque o mecanismo de atenção colapsa em um atalho. Para quem avalia modelos, a dica é: simplifique seus prompts e monitore não só a resposta, mas como ela se distribui. E você, já testou seus modelos para viés posicional?
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário