Repetição de dados: o novo gargalo no treinamento de IA

Repetição de dados: o novo gargalo no treinamento de IA

Se você treina modelos grandes, já sentiu na pele: o volume de dados de qualidade não acompanha o crescimento do poder computacional. A relação clássica de Chinchilla, que define como alocar compute entre dados e parâmetros, simplesmente não funciona quando você é forçado a reutilizar exemplos. Um novo paper propõe uma lei de escala modificada que incorpora um termo de overfitting por repetição, e os resultados mudam a forma como pensamos em treinamento data-constrained.

O fato

O artigo 'Prescriptive Scaling Laws for Data Constrained Training' introduz uma extensão da lei de Chinchilla que modela o excesso de loss causado pela repetição de tokens como uma penalidade aditiva de overfitting. A ideia é que, em cenários onde o dataset é fixo e limitado, repetir dados além de um certo ponto não apenas não ajuda, como prejudica o desempenho. O estudo mostra que, a partir de um limiar, o melhor uso do compute extra é aumentar a capacidade do modelo, não iterar mais sobre os mesmos dados.

Como funciona (visão de operador)

A abordagem é enganosamente simples: eles adicionam um termo de overfitting que escala com o número de repetições de cada token. Esse termo tem um único parâmetro (chamado de coeficiente de overfitting), que isola o efeito da repetição. Em termos práticos, a lei de scaling vira: loss = A*N^(-alpha) + B*D^(-beta) + C*R^(gamma), onde R é o número de vezes que cada token foi visto. O coeficiente C captura a propensão ao overfitting da configuração de treinamento. Com isso, o ótimo de alocação de compute entre parâmetros e dados muda: em vez de simplesmente aumentar o dataset (que é fixo), você decide se compra mais GPUs para um modelo maior ou para treinar mais épocas. O paper conclui que, além de um ponto, mais épocas são piores do que aumentar o modelo.

O que isso muda na prática

Para quem treina modelos com datasets limitados (empresas com dados proprietários, domínios específicos, ou mesmo projetos open-source com recursos restritos), a mensagem é clara: pare de achar que mais epochs são sempre benéficas. A recomendação prática é usar weight decay muito mais alto do que o padrão. O estudo mostra que weight decay de lambda=1.0 reduz o coeficiente de overfitting em cerca de 70%, comparado ao lambda típico de 0.1. Isso significa que você pode repetir dados por mais tempo sem sofrer overfitting, mas ainda há um teto. A ação imediata: se você está treinando com dados repetidos, aumente o weight decay significativamente e monitore o ponto de saturação.

Tensão / Reflexão

A pergunta que fica: isso escala para modelos de fronteira? O estudo faz experimentos em modelos de até 1B de parâmetros, mas o comportamento de overfitting por repetição pode ser diferente em escalas maiores. Além disso, o artigo não aborda técnicas de data augmentation ou geração sintética, que poderiam mitigar a repetição sem overfitting. Será que a lei de scaling modificada se mantém quando você usa dados sintéticos de qualidade variável? O custo de gerar dados sintéticos versus treinar com repetição é outro trade-off que o paper não explora.

Quem ganha e quem perde

  • Ganham: startups com dados limitados que precisam otimizar cada centavo de compute. Também ganham projetos que usam weight decay forte, pois agora têm uma justificativa teórica.
  • Perdem: quem treina modelos com datasets enormes e variados (como web-scale) – a regra de Chinchilla tradicional ainda serve. Mas mesmo esses podem enfrentar o problema quando dados de alta qualidade se esgotam.

Conclusão

O paper oferece uma ferramenta prática para quem opera sob restrição de dados: uma lei de scaling que inclui repetição. O principal insight é que repetir dados tem retorno decrescente e pode se tornar prejudicial – e que weight decay alto é uma alavanca subestimada. O próximo passo é testar se essas recomendações se mantêm em regimes de billion-scale e com dados sintéticos. Até lá, a pergunta para quem está treinando hoje: você já calculou quantas vezes cada token do seu dataset foi visto?

Compartilhe este artigo

Comentários (0)

Nenhum comentário ainda. Seja o primeiro a comentar!

Deixe seu comentário