Inteligência Artificial 02 May, 2026 • Filippe Barreto Sims • 2

RL vs SFT: Por que o Reinforcement Learning generaliza melhor?

O problema da generalização no pós-treinamento de LLMs

Quem já trabalhou com fine-tuning de modelos de linguagem sabe: supervisionado (SFT) você ganha performance na tarefa, mas perde generalização. Reinforcement learning (RL) faz o oposto — mantém o modelo flexível, quase como se ele aprendesse a aprender. Um paper recente do arXiv (2604.25011) finalmente mostra por que isso acontece, analisando features internas dos modelos.

O fato: RL muda features de forma restrita e contínua

Pesquisadores treinaram modelos base idênticos com os mesmos dados, mas usando RL (PPO) e SFT. Eles alinharam ativações internas em um espaço de features compartilhado e monitoraram a evolução. Resultado: SFT introduz rapidamente muitas features altamente especializadas que estabilizam cedo no treinamento. RL, por outro lado, induz mudanças mais restritas e que continuam evoluindo, preservando as representações do modelo base.

Como funciona a análise (visão de operador)

O método usa um framework de interpretabilidade que alinha ativações entre modelos. Na prática, eles mapeiam cada camada do transformer para um espaço de features compartilhado via uma transformação linear. Depois quantificam a mudança de features por métricas como divergência de distribuição e análise de componentes principais. Para um engenheiro de ML, isso é como fazer PCA em ativações e ver que no SFT as componentes principais mudam drasticamente e ficam fixas, enquanto no RL elas flutuam suavemente.

O que isso muda na prática

Para quem treina LLMs, o insight é direto: se você quer um modelo que generalize para tarefas novas, RL é a escolha. Mas RL custa mais em termos computacionais — cada iteração exige amostragem de texto (on-policy) e computação de recompensa. SFT é mais barato e previsível. Agora sabemos o preço da especialização: perda de features genéricas. Ação prática: antes de decidir entre SFT e RL, avalie se o trade-off entre especialização e generalização vale para seu caso de uso.

Tensão: RL resolve ou só move o gargalo?

O paper identifica um conjunto compacto de features, independentes de tarefa, que mediam a generalização em RL. Intervenções causais mostram que desativar essas features degrada performance, e amplificá-las melhora modelos base. Legal, mas isso escala? Essas features são específicas para o ambiente controlado dos experimentos. Em cenários reais com dados ruidosos e recompensas esparsas, a identificação dessas features pode ser muito mais difícil. Além disso, RL requer design cuidadoso da função de recompensa — um problema que apenas troca a complexidade do dado pela complexidade da recompensa.

Conclusão

RL generaliza melhor porque altera menos as representações internas e deixa espaço para features adaptáveis. SFT cristaliza features especializadas cedo demais. A pergunta que fica: como tornar RL mais eficiente para que o custo computacional não inviabilize seu uso em larga escala? O paper é um passo importante para entender o que acontece dentro do modelo durante o pós-treinamento.

Fonte: arXiv