OpenAI Acusada de Usar Livros Protegidos por Direitos Autorais para Treinar IA

OpenAI Acusada de Usar Livros Protegidos por Direitos Autorais para Treinar IA

OpenAI Acusada de Usar Livros Protegidos por Direitos Autorais para Treinar IA

A OpenAI, empresa por trás do ChatGPT, está enfrentando novas acusações de treinar seus modelos de inteligência artificial com conteúdo protegido por direitos autorais sem permissão. Um recente estudo do AI Disclosures Project, uma organização sem fins lucrativos co-fundada por Tim O'Reilly e Ilan Strauss, sugere que a OpenAI pode ter utilizado livros não públicos da O'Reilly Media para treinar seu modelo GPT-4o.

Detalhes da Acusação

O estudo, intitulado "OpenAI Training Violations: O'Reilly Books", revela que o GPT-4o demonstra um reconhecimento significativo de conteúdo de livros da O'Reilly que estão atrás de paywall, em comparação com o modelo anterior, GPT-3.5 Turbo. Os autores do estudo, incluindo O'Reilly, Strauss e o pesquisador de IA Sruly Rosenblat, utilizaram um método chamado DE-COP para detectar conteúdo protegido por direitos autorais nos dados de treinamento dos modelos de linguagem.

Metodologia e Resultados

Os pesquisadores analisaram 13.962 trechos de parágrafos de 34 livros da O'Reilly para estimar a probabilidade de que um trecho específico tenha sido incluído no conjunto de dados de treinamento do modelo. Os resultados indicam que o GPT-4o reconheceu muito mais conteúdo de livros da O'Reilly protegidos por paywall do que os modelos mais antigos da OpenAI.

Implicações e Respostas

Embora os autores do estudo reconheçam que seu método não é infalível e que a OpenAI poderia ter obtido os trechos de livros através de usuários copiando e colando no ChatGPT, a acusação levanta questões sobre as práticas de treinamento de dados da empresa. A OpenAI não respondeu ao pedido de comentário sobre essas alegações.

A empresa tem defendido regulamentações mais flexíveis sobre o uso de dados protegidos por direitos autorais para treinar modelos de IA e até contratou jornalistas para ajudar a ajustar as saídas de seus modelos. No entanto, a OpenAI também possui acordos de licenciamento com várias fontes de dados e oferece mecanismos de opt-out, embora imperfeitos, para proprietários de direitos autorais.

Conclusão

À medida que a OpenAI enfrenta várias ações judiciais sobre suas práticas de treinamento de dados e o tratamento da lei de direitos autorais nos tribunais dos EUA, este estudo não é um bom olhar para a empresa. A questão de como as empresas de IA utilizam dados protegidos por direitos autorais continua a ser um tópico controverso e em evolução.

Compartilhe este artigo