O problema da generalização no pós-treinamento de LLMs
Quem já trabalhou com fine-tuning de modelos de linguagem sabe: supervisionado (SFT) você ganha performance na tarefa, mas perde generalização. Reinforcement learning (RL) faz o oposto — mantém o modelo flexível, quase como se ele aprendesse a aprender. Um paper recente do arXiv (2604.25011) finalmente mostra por que isso acontece, analisando features internas dos modelos.
O fato: RL muda features de forma restrita e contínua
Pesquisadores treinaram modelos base idênticos com os mesmos dados, mas usando RL (PPO) e SFT. Eles alinharam ativações internas em um espaço de features compartilhado e monitoraram a evolução. Resultado: SFT introduz rapidamente muitas features altamente especializadas que estabilizam cedo no treinamento. RL, por outro lado, induz mudanças mais restritas e que continuam evoluindo, preservando as representações do modelo base.
Como funciona a análise (visão de operador)
O método usa um framework de interpretabilidade que alinha ativações entre modelos. Na prática, eles mapeiam cada camada do transformer para um espaço de features compartilhado via uma transformação linear. Depois quantificam a mudança de features por métricas como divergência de distribuição e análise de componentes principais. Para um engenheiro de ML, isso é como fazer PCA em ativações e ver que no SFT as componentes principais mudam drasticamente e ficam fixas, enquanto no RL elas flutuam suavemente.
O que isso muda na prática
Para quem treina LLMs, o insight é direto: se você quer um modelo que generalize para tarefas novas, RL é a escolha. Mas RL custa mais em termos computacionais — cada iteração exige amostragem de texto (on-policy) e computação de recompensa. SFT é mais barato e previsível. Agora sabemos o preço da especialização: perda de features genéricas. Ação prática: antes de decidir entre SFT e RL, avalie se o trade-off entre especialização e generalização vale para seu caso de uso.
Tensão: RL resolve ou só move o gargalo?
O paper identifica um conjunto compacto de features, independentes de tarefa, que mediam a generalização em RL. Intervenções causais mostram que desativar essas features degrada performance, e amplificá-las melhora modelos base. Legal, mas isso escala? Essas features são específicas para o ambiente controlado dos experimentos. Em cenários reais com dados ruidosos e recompensas esparsas, a identificação dessas features pode ser muito mais difícil. Além disso, RL requer design cuidadoso da função de recompensa — um problema que apenas troca a complexidade do dado pela complexidade da recompensa.
Conclusão
RL generaliza melhor porque altera menos as representações internas e deixa espaço para features adaptáveis. SFT cristaliza features especializadas cedo demais. A pergunta que fica: como tornar RL mais eficiente para que o custo computacional não inviabilize seu uso em larga escala? O paper é um passo importante para entender o que acontece dentro do modelo durante o pós-treinamento.
Fonte: arXiv
Nenhum comentário ainda. Seja o primeiro a comentar!
Deixe seu comentário