De acordo com uma nova pesquisa, o modelo de linguagem da Meta, chamado Llama, memorizou tão bem o livro “Harry Potter e a Pedra do Feiticeiro” que é capaz de reproduzir trechos idênticos de 42% da obra.
Pesquisadores de Stanford, Cornell e West Virginia University examinaram diversos livros do conjunto de dados conhecido como Books3, que se tornou notório por conter livros pirateados utilizados para treinar modelos de IA. O Books3 também é o foco de um processo judicial por violação de direitos autorais contra a Meta, no caso Kadrey v. Meta Platforms, Inc. Os autores do estudo afirmam que suas conclusões podem ter impacto significativo para empresas de inteligência artificial que enfrentam processos judiciais semelhantes.
Segundo o estudo mencionado, o modelo Llama 3.1 é capaz de reter grande parte do conteúdo de livros como Harry Potter e 1984. Mais precisamente, a pesquisa revelou que o Llama 3.1 memorizou 42% do livro Harry Potter de forma a conseguir reproduzir trechos exatos pelo menos metade do tempo. No geral, o modelo conseguiu reproduzir passagens de 91% do livro, embora com menos consistência.
De acordo com o artigo, a importância da memorização textual exata dos livros no conjunto de dados do Books3 é maior do que anteriormente mencionado. Além disso, os pesquisadores observaram que a capacidade de memorização varia consideravelmente entre os diferentes modelos e entre os livros dentro de cada modelo, assim como em diferentes partes de cada livro individual. Por exemplo, o estudo indicou que o modelo Llama 3.1 memorizou apenas 0,13% do livro “Sandman Slim” de Richard Kadrey, que foi um dos principais autores envolvidos na ação coletiva de direitos autorais contra a Meta.
Portanto, embora certas descobertas do jornal possam parecer prejudiciais, não devem ser consideradas como uma ferramenta para aqueles que buscam reclamar em casos de violação de direitos autorais da AI.
“Estes resultados permitem que os defensores dos direitos autorais da inteligência artificial discutam sobre a necessidade de chegar a um consenso”, afirmou o jornalista Timothy B. Lee em seu boletim de notícias Understanding AI. “Resultados divergentes como esses podem levantar questionamentos sobre a viabilidade de agrupar autores como J.K. Rowling, Richard Kadrey e muitos outros em um único processo coletivo. Isso poderia favorecer a Meta, uma vez que a maioria dos autores não tem recursos para entrar com ações individuais.”
Por que a Llama consegue reproduzir certos livros mais do que outros? “Eu acredito que isso se deve ao fato de que Harry Potter é um livro muito mais conhecido. Ele é frequentemente citado e tenho certeza de que partes significativas dele presentes em sites de terceiros acabaram sendo incluídas nos dados usados para o treinamento na internet”, explicou James Grimmelmann, professor de direito digital e informação da Universidade Cornell, conforme citado no artigo.
De acordo com Grimmelmann, isso também indica que as empresas de inteligência artificial têm o poder de decidir se querem aumentar ou diminuir a capacidade de memorização. A capacidade de memorização não é algo intrínseco à inteligência artificial; as empresas têm o controle sobre isso.
Meta e outras empresas de Inteligência Artificial afirmaram que utilizar obras protegidas por direitos autorais para o treinamento de seus modelos está respaldado pelo conceito legal do uso justo, uma doutrina jurídica intricada. No entanto, a extensão da memorização poderia trazer complicações a esses argumentos.
“Segundo Robert Brauneis, professor da Faculdade de Direito da Universidade George Washington, acredita-se que a possibilidade de aprendizado de máquina de linguagem mudar a interpretação dos direitos autorais. Ele sugeriu que os resultados do estudo podem minar a defesa de uso justo da Meta.”
Solicitamos uma declaração do Meta em relação às conclusões do estudo, e iremos acrescentar a resposta recebida a este artigo.
Reformulação: Em abril, a Ziff Davis, empresa responsável pela Mashable, entrou com uma ação legal contra a OpenAI, alegando que a empresa violou os direitos autorais da Ziff Davis ao utilizar seu treinamento e operar seus sistemas de inteligência artificial.
Objetivo
Comments