EleutherAI Revoluciona Treinamento de IA com “The Common Pile”, Gigante de Dados Abertos e Licenciados
A organização de pesquisa em inteligência artificial, EleutherAI, anunciou o lançamento de uma das maiores coleções de texto licenciado e de domínio público destinadas ao treinamento de modelos de IA. Batizado de The Common Pile v0.1, o conjunto de dados é o resultado de aproximadamente dois anos de trabalho colaborativo com startups de IA como Poolside e Hugging Face, além de diversas instituições acadêmicas.
Com impressionantes 8 terabytes de tamanho, The Common Pile v0.1 já foi utilizado para treinar dois novos modelos de IA da EleutherAI, denominados Comma v0.1-1T e Comma v0.1-2T. A organização afirma que estes modelos demonstram um desempenho comparável aos desenvolvidos com dados não licenciados e protegidos por direitos autorais, um ponto crucial no atual cenário da IA.
O Desafio dos Direitos Autorais e a Busca por Transparência
Empresas de IA, incluindo gigantes do setor, enfrentam atualmente processos judiciais devido às suas práticas de treinamento, que frequentemente envolvem a coleta de vastas quantidades de dados da web, incluindo material protegido por direitos autorais, como livros e periódicos científicos. Embora algumas empresas possuam acordos de licenciamento, a maioria argumenta que a doutrina do “uso justo” (fair use) as isenta de responsabilidade.
A EleutherAI argumenta que esses litígios têm “diminuído drasticamente” a transparência por parte das empresas de IA. Segundo a organização, essa falta de abertura prejudica o campo de pesquisa em IA como um todo, tornando mais difícil compreender o funcionamento interno dos modelos e identificar suas potenciais falhas.
“Os processos judiciais [sobre direitos autorais] não alteraram significativamente as práticas de coleta de dados no treinamento [de modelos], mas diminuíram drasticamente a transparência com que as empresas se envolvem,” escreveu Stella Biderman, diretora executiva da EleutherAI, em uma postagem no blog da Hugging Face. “Pesquisadores de algumas empresas com as quais conversamos também citaram especificamente os processos como o motivo pelo qual não puderam divulgar as pesquisas que estão realizando em áreas altamente centradas em dados.”
Construindo um Futuro com Dados Éticos
O The Common Pile v0.1, disponível para download na plataforma de desenvolvimento de IA da Hugging Face e no GitHub, foi criado em consulta com especialistas jurídicos. Suas fontes incluem cerca de 300.000 livros de domínio público digitalizados pela Biblioteca do Congresso dos EUA e pelo Internet Archive. A EleutherAI também utilizou o Whisper, modelo de código aberto de conversão de fala para texto da OpenAI, para transcrever conteúdo de áudio.
A EleutherAI sustenta que os modelos Comma v0.1-1T e Comma v0.1-2T são a prova de que o The Common Pile v0.1 foi curado com o cuidado necessário para permitir que desenvolvedores criem modelos competitivos com alternativas proprietárias. Ambos os modelos possuem 7 bilhões de parâmetros – os componentes internos que guiam o comportamento e as respostas de um modelo de IA – e foram treinados com apenas uma fração do The Common Pile v0.1. Ainda assim, segundo a EleutherAI, eles rivalizam com modelos como o primeiro Llama da Meta em benchmarks para codificação, compreensão de imagem e matemática.
“Em geral, pensamos que a ideia comum de que texto não licenciado impulsiona o desempenho é injustificada,” afirmou Biderman. “À medida que a quantidade de dados abertamente licenciados e de domínio público cresce, podemos esperar que a qualidade dos modelos treinados em conteúdo abertamente licenciado melhore.”
O lançamento do The Common Pile v0.1 parece ser, em parte, um esforço da EleutherAI para corrigir equívocos históricos. Anos atrás, a empresa lançou “The Pile”, uma coleção aberta de texto para treinamento que incluía material protegido por direitos autorais, gerando críticas e pressão legal sobre as empresas que o utilizaram.
Olhando para o futuro, a EleutherAI compromete-se a lançar conjuntos de dados abertos com maior frequência, em colaboração com seus parceiros de pesquisa e infraestrutura, fomentando um ecossistema de IA mais transparente e ético.
