人工智能训练中盗版内容的法律问题

文章主题：人工智能, 著作权法, 训练数据, 盗版内容

文丨游云庭（上海大邦律师事务所高级合伙人，知识产权律师。）

据媒体报道，近日美国作家协会携包括《冰与火之歌：权力的游戏》的作者乔治·马丁在内的17名作家在美国纽约南区法院对人工智能公司OpenAI发起集体诉讼，指控后者未经许可使用了受版权保护的作品训练人工智能模型。作为律师，笔者对原告如何证明OpenAI用《冰与火之歌：权力的游戏》训练ChatGPT很感兴趣，就查阅了美国作家协会网站上的起诉状，本文会结合著作权法律跟大家聊聊这个事情。

众所周知，人工智能服务的质量关键在于其解答能力的强弱，而为了提高这些能力，大量的优质训练数据是必不可少的。然而，全球大多数国家的著作权法都规定，在使用他人拥有著作权的内容进行训练之前，人工智能开发者必须获得著作权人的授权。这一规定对于开发者来说，意味着需要进行复杂的授权商务谈判，以及在开发时限内尽快完成，同时还需要承担较高的版权成本。因此，部分开发者为了节省时间和成本，选择了直接使用盗版内容作为训练数据。

这种方法引起了很多关注，其中一个重要原因是大型模型训练数据的保密性。训练过程中，这些数据通常被视作黑箱操作，使得著作权人难以证明侵权行为的存在。尽管如此，美国近期已有相关诉讼案件发生。为了更好地了解这一情况，我们将重点关注美国律师如何论证侵权行为的存在。

一、被告自认（其实是ChatGPT自认）

在一桩涉及知识产权的案件中，原告指控OpenAI未经允许地复制并公之于众其受版权保护的著作。据原告的律师透露，OpenAI不仅未经授权地使用了这些作品，而且还公开承认了这一行为。这使得原告感到非常愤怒，因此将OpenAI告上了法庭。此外，据原告律师所提供的信息，聊天机器人ChatGPT在回答有关此事件的问题时，竟然直接回应了原告律师的质疑。这一情况让人更加惊讶，也引发了公众对于OpenAI涉嫌侵犯知识产权的广泛关注。

在我所接受的训练过程中，可能涉及到一些受到版权保护的书籍。然而，我的训练数据来源于互联网上的众多公开资源，其中包括许多未经授权的书籍。尽管如此，我的训练数据集中仍然包含了一些受版权保护的资料。在这种情况下，这些资料的使用是在版权持有者未知或未给予许可的情况下进行的。

在仔细审查过程中，原告律师注意到一个有趣的现象，那就是直至近期，ChatGPT仍能熟练地提供受版权保护书籍中的原文，这暗示着底层的巨大语言模型在训练过程中或许已经全面摄入了这些著作。然而，近期ChatGPT对此作出了一项显著调整，它现在会以“我无法提供版权文本的逐字摘录”作为回应，针对此类提示。考虑到时间线，我们可以推测ChatGPT对输出规则的改变很可能是受到原告作家协会向OpenAI及其他公司发送的公开信的 prompt。

作为一名专业的文章写作高手，我理解您希望获得一个有深度的、具有说服力的论述。针对您提供的内容，我可以为您提供一个更加严谨和专业的表述。在本文中，作者强调尽管ChatGPT可能认为其训练素材并未获得授权，但是考虑到人工智能在回答中常常缺乏根据地说一些无关紧要或者毫无根据的话（例如，ChatGPT曾错误地将作者描述为一名刑事律师，并提到其最近处理了一起著名的强奸案，这显然是无稽之谈，没有任何事实依据），因此，只有当这段回复有其他可靠的证据加以佐证，才有可能在法庭上被视为案件的事实。

二、训练素材包来自知名盗版网站

在一份诉讼文件中提出，ChatGPT所提供的并非是对具体单词的逐字复制，而是受到版权保护的书籍的摘要。这些摘要中常常包含评论和其他在公开资料中难以找到的细节。这一点再次证明，训练大型语言模型时必须录入整本书籍。然而，OpenAI对于从何地以及如何获取原告所拥有的受版权保护的作品，一直含糊其辞。OpenAI确认，用于训练模型的数据集包括“Common Crawl”和两个高质量基于互联网的书籍语料库，分别被称为“Booksl”和“Books2.T2”。

Common Crawl是一款庞大的语料库，其内容源自数十亿网页的原始数据、元数据提取以及文本提取。它在训练大型语言模型方面具有重要作用，不仅OpenAI的GPT，还脸书和谷歌等知名公司的AI引擎都曾借助其力量。值得注意的是，该语料库中包含大量从盗版网站复制的书籍文本，这些文本与Z-Library中的大型盗版图书库有关联。盗版图书库拥有超过1100万册图书，而这些书籍文本随后被纳入Common Crawl语料库，并成为其他大型语言模型的训练数据集的一部分。

OpenAI拒绝讨论Books2数据集的来源。但一些独立的Al研究人员怀疑 Books2 包含或由从大型盗版图书库下载的电子书文件组成，如Library Genesis或 “LibGen”，它提供了一个庞大的盗版文本库：LibGen 作为一个臭名昭著的版权侵权者已为法院所熟知。而Books2 的其他可能来源包括 Z-Library和 Bibliotik 等盗版种子跟踪器，这些跟踪器允许用户批量下载电子书。

原告律师无法证明Books2的数据来源，所以举了著名包含大量盗版内容的训练素材库“Books3”作为类比证据（《连线》杂志报道过，脸书和彭博社的大型语言模型使用了“Books3″的素材库）：已披露的 Books2 数据集的规模表明，该数据集包含10万多本书。Books2和Books3的大小相似，而且互联网上允许批量下载电子书的盗版存储库寥寥无几，这有力地表明Books2中的书籍也是从上文讨论过的臭名昭著的存储库中获取的。

如果这个诉讼是在中国进行的，如果原告初步证明了被告的训练素材存在盗版，此时，举证责任就在被告，被告要证明其训练素材不存在盗版，否则法院就会支持原告的证明内容。

三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT？

诉状称，乔治·马丁是包括《权力的游戏》在内的十五部小说作品的著作权人，OpenAI在未经许可的情况下录入并复制了乔治·马丁的全部或多部作品，并将其用于训练OpenAI 的大型语言模型。诉状中举了两个第三方新闻的例子：

1、2023 年 7 月，一个叫Liam Swayne的程序员使用 ChatGPT 生成了《凛冬的寒风》、《春晓的梦想》的版本，这两本书是马丁正在创作的《冰与火之歌》系列的最后两部作品。

2、美国加州大学伯克利分校的研究人员对ChatGPT对作品的“记忆”程度进行了一项实验，发现马丁的小说《权力的游戏》在“记忆”程度方面排名第12位。

然后，原告律师使用ChatGPT进行测试，输入提示后，ChatGPT准确生成了几部马丁作品的摘要，包括《冰与火之歌》系列的前三部《权力的游戏》、《列王的纷争》、《冰雨的风暴》以及《末日审判布条》最后一章的准确摘要。

原告律师输入提示后，ChatGPT还为马丁作品《列王的纷争》的另一部续集生成了一份详细大纲，并将该衍生作品命名为A Dance With Shadows，其中使用了马丁《冰与火之歌》系列现有书籍中的相同角色。ChatGPT还生成了一份《权力的游戏前传》的详细大纲，并将该衍生作品命名为 A Dawn of Direwolves，其中使用了与《冰与火之歌》系列丛书中相同的人物。

诉状总结：如果OpenAI大型语言模型没有摄取马丁侵权作品并对其进行训练，ChatGPT 就不可能产生上述结果。笔者认为，如果诉讼在中国法院进行，马丁的律师已经证明了ChatGPT使用了马丁的作品进行训练，并且其服务器目前仍然留存着马丁作品的复制件。

四、人工智能训练可以不用获得著作权人的授权吗？

法律原理上，让人工智能学习网上内容的过程是一个复制行为或者临时复制行为，人工智能公司要先将网上的或者线下获得的内容爬取，然后输入到人工智能程序中，无论这个内容是文字、图片、音频、视频还是程序，复制行为都应当获得相应权利人许可，否则就涉嫌侵权。

实际上我国法律法规也是这么规定的，根据我国《著作权法》和七部门联合发布的《生成式人工智能服务管理暂行办法》，我国的生成式人工智能服务提供者（以下称提供者）开展预训练、优化训练等训练数据处理活动时，不得侵害他人依法享有的知识产权，也就是说，训练素材需要取得著作权人的许可。在美国，如前文所述，训练人工智能的版权素材需要著作权人授权。

但对这个问题，也有国家的规定不太一样，比如根据日本著作权法第30条第4款，用版权内容训练人工智能属于合理使用：如果不以欣赏作品中表达的思想或情感为目的，且没有不合理的损害著作人权人权益的，可以合理使用他人享有著作权的作品。

笔者觉得，虽然日本的规定立法目的可能是为了振兴该国的人工智能产业，但其实也是一个思路，因为人工智能生成的内容不受著作权法保护，那其创造的内容就是全民共有的，那把所有的版权作品都让其学习一下，成果出来了大家都不需要授权就可以用，这个说不定也挺好。

（文章仅代表作者观点。责编邮箱：yanguihua@jiemian.com。）

举报/反馈

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

一、被告自认（其实是ChatGPT自认）

二、训练素材包来自知名盗版网站

三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT？

四、人工智能训练可以不用获得著作权人的授权吗？

相关文章

发表回复 取消回复

发表回复取消回复