Adobe bateu com proposta de ação coletiva, acusada de usar indevidamente o trabalho dos autores no treinamento de IA
Como praticamente todas as outras empresas de tecnologia existentes, a Adobe se apoiou fortemente na IA nos últimos anos. A empresa de software lançou vários serviços de IA diferentes desde 2023, incluindo Firefly – seu conjunto de geração de mídia alimentado por IA. Agora, no entanto, a adoção total da tecnologia pela empresa pode ter causado problemas, já que um novo processo alega que ela usou livros piratas para treinar um de seus modelos de IA.
Uma proposta de ação coletiva movida em nome de Elizabeth Lyon, uma autora de Oregon, afirma que a Adobe usou versões piratas de vários livros – incluindo o seu próprio – para treinar os funcionários da empresa. Programa SlimLM.
A Adobe descreve SlimLM como uma série de modelos de linguagem pequena que pode ser “otimizada para tarefas de assistência documental em dispositivos móveis”. Isto afirma que SlimLM foi pré-treinado em SlimPajama-627B, um “conjunto de dados desduplicado, multicorpora e de código aberto” lançado pela Cerebras em junho de 2023. Lyon, que escreveu vários guias para escrita de não ficção, diz que alguns de seus trabalhos foram incluídos em um conjunto de dados de pré-treinamento que a Adobe usou.
O processo de Lyon, que foi originalmente relatado publicado pela Reuters, diz que sua escrita foi incluída em um subconjunto processado de um conjunto de dados manipulado que foi a base do programa da Adobe: “O conjunto de dados SlimPajama foi criado copiando e manipulando o conjunto de dados RedPajama (incluindo a cópia de Books3)”, diz o processo. “Assim, por ser uma cópia derivada do conjunto de dados RedPajama, SlimPajama contém o conjunto de dados Books3, incluindo as obras protegidas por direitos autorais do Requerente e dos membros da Classe.”
“Livros3″ – um enorme coleção de 191 mil livros que têm sido usados para treinar sistemas genAI – tem sido uma fonte contínua de problemas legais para a comunidade tecnológica. RedPajama também foi citado em vários casos de litígio. Em setembro, um processo contra a Apple alegou que a empresa usou material protegido por direitos autorais para treinar seu modelo Apple Intelligence. O litígio mencionou o conjunto de dados e acusou a empresa de tecnologia de copiar obras protegidas “sem consentimento e sem crédito ou compensação”. Em outubro, um processo semelhante contra a Salesforce também alegou que a empresa usou o RedPajama para fins de treinamento.
Infelizmente para a indústria de tecnologia, tais ações judiciais já se tornaram um tanto comuns. Os algoritmos de IA são treinados em conjuntos de dados massivos e, em alguns casos, esses conjuntos de dados supostamente incluem materiais piratas. Em setembro, Antrópico concordou em pagar US$ 1,5 bilhão a vários autores que a processaram e acusaram de usar versões piratas de seu trabalho para treinar seu chatbot, Claude. O caso foi considerado um potencial ponto de viragem nas batalhas legais em curso sobre material protegido por direitos de autor em dados de treino de IA, dos quais existem muitos.
Share this content:



Publicar comentário