Estudo Revela que OpenAI Pode Ter Usado Conteúdo Protegido por Direitos Autorais em Seus Modelos de IA
Um novo estudo, conduzido por pesquisadores da Universidade de Washington, Universidade de Copenhague e Stanford, sugere que a OpenAI pode ter treinado seus modelos de inteligência artificial com conteúdo protegido por direitos autorais. A pesquisa, publicada recentemente, propõe um método inovador para identificar dados de treinamento "memorizados" por modelos de IA, como os da OpenAI.
A OpenAI enfrenta uma série de processos judiciais movidos por autores, programadores e outros detentores de direitos autorais, que alegam que a empresa utilizou suas obras - livros, códigos e outros - para desenvolver seus modelos sem permissão. A OpenAI defende-se alegando uso justo, mas os autores das ações judiciais argumentam que a lei de direitos autorais dos EUA não prevê exceções para dados de treinamento.
Os modelos de IA são motores de previsão que aprendem padrões a partir de grandes volumes de dados. Embora a maioria das saídas não seja uma cópia literal dos dados de treinamento, devido à forma como os modelos "aprendem", algumas inevitavelmente são. Modelos de imagem já foram encontrados regurgitando capturas de tela de filmes em que foram treinados, enquanto modelos de linguagem foram observados plagiando artigos de notícias.
O estudo utiliza palavras que os co-autores chamam de "alta-surpresa" - palavras que se destacam como incomuns no contexto de um corpo maior de trabalho. Por exemplo, a palavra "radar" na frase "Jack e eu ficamos perfeitamente quietos com o radar zumbindo" seria considerada de alta-surpresa porque é estatisticamente menos provável que palavras como "motor" ou "rádio" apareçam antes de "zumbindo".
Os co-autores testaram vários modelos da OpenAI, incluindo o GPT-4 e o GPT-3.5, procurando sinais de memorização ao remover palavras de alta-surpresa de trechos de livros de ficção e artigos do New York Times e pedir aos modelos que "adivinhassem" quais palavras haviam sido mascaradas. Se os modelos conseguissem adivinhar corretamente, é provável que eles tenham memorizado o trecho durante o treinamento, concluíram os co-autores.
Os resultados dos testes indicaram que o GPT-4 mostrou sinais de ter memorizado partes de livros de ficção populares, incluindo livros em um conjunto de dados contendo amostras de e-books protegidos por direitos autorais chamado BookMIA. Os resultados também sugeriram que o modelo memorizou partes de artigos do New York Times, embora em uma taxa comparativamente menor.
Abhilasha Ravichander, estudante de doutorado na Universidade de Washington e co-autora do estudo, disse ao TechCrunch que os achados lançam luz sobre os "dados controversos" que os modelos podem ter sido treinados. "Para termos modelos de linguagem grandes que sejam confiáveis, precisamos de modelos que possamos sondar, auditar e examinar cientificamente", disse Ravichander. "Nosso trabalho visa fornecer uma ferramenta para sondar grandes modelos de linguagem, mas há uma necessidade real de maior transparência de dados em todo o ecossistema."
A OpenAI tem defendido há muito tempo restrições mais flexíveis ao desenvolvimento de modelos usando dados protegidos por direitos autorais. Embora a empresa tenha acordos de licenciamento de conteúdo em vigor e ofereça mecanismos de opt-out que permitem aos proprietários de direitos autorais sinalizar conteúdo que preferem que a empresa não use para fins de treinamento, ela tem feito lobby em vários governos para codificar regras de "uso justo" em torno de abordagens de treinamento de IA.