游云庭：ChatGPT侵权案揭示人工智能训练数据难题

文章主题：人工智能, 著作权法, 训练数据, 盗版内容

文丨游云庭（上海大邦律师事务所高级合伙人，知识产权律师。）

据媒体报道，近日美国作家协会携包括《冰与火之歌：权力的游戏》的作者乔治·马丁在内的17名作家在美国纽约南区法院对人工智能公司OpenAI发起集体诉讼，指控后者未经许可使用了受版权保护的作品训练人工智能模型。作为律师，笔者对原告如何证明OpenAI用《冰与火之歌：权力的游戏》训练ChatGPT很感兴趣，就查阅了美国作家协会网站上的起诉状，本文会结合著作权法律跟大家聊聊这个事情。

众所周知，人工智能服务的质量取决于其解答能力的强弱，而为了提高这些能力，高质量的训练数据是必不可少的。然而，在我国及大多数国家的著作权法中，有一个规定要求人工智能的开发者在使用他人享有著作权的内容进行训练之前，必须取得著作权人的许可。这一规定的初衷是为了保护著作权人的权益，防止侵权行为的发生。然而，考虑到诸多因素（如避免复杂的授权商务谈判、缩短开发时限以满足紧迫的需求、降低版权成本等），一些人工智能开发者选择了直接使用盗版内容作为训练数据，而非寻求合法的授权方式。

这种方法引起了很多关注，其中一个重要原因是大型模型训练数据的保密性。训练过程中，这些数据通常被视作黑箱操作，使得著作权人难以证明侵权行为的存在。尽管如此，美国近期已有诉讼涉及此问题。下面，我们将探讨美国律师是如何论证这一问题的。

一、被告自认（其实是ChatGPT自认）

在一桩涉及知识产权的案件中，原告指控OpenAI未经允许地复制并公之于众其受版权保护的著作。据原告的律师透露，OpenAI不仅未经授权地使用了这些作品，而且还公开承认了这一行为。这使得原告感到非常愤怒，因此他们决定采取法律手段来维护自己的权益。值得注意的是，原告的律师在向ChatGPT提出问题时，得到了一个令人惊讶的回答。据 ChatGPT 回复，OpenAI 在训练其大型语言模型时，的确使用了这些受版权保护的作品，而且 OpenAI 已经公开承认了自己的错误。这一事件引发了广泛的关注，许多人开始质疑 OpenAI 的知识产权政策以及其在人工智能领域的影响。

在我所接受的训练过程中，可能涉及到一些受到版权保护的书籍。然而，我的训练数据来源于互联网上的众多公开资源，其中包括许多未经授权的书籍。尽管如此，我的训练数据集中仍然包含了一些受版权保护的资料。在这种情况下，这些资料的使用是在版权持有者未知或未给予许可的情况下进行的。

在仔细审查过程中，原告律师注意到一个有趣的现象，那就是直至近期，ChatGPT仍能熟练地提供受版权保护书籍中的原文，这暗示着底层的巨大语言模型在训练过程中或许已经全面摄入了这些作品。然而，近期ChatGPT对此作出了一项显著调整，它现在会以“我无法提供版权文本的逐字摘录”作为回应，这无疑对输出的规则产生了明显改变。考虑到这一点，我们可以推测这种变化很可能是由于原告作家协会向OpenAI以及其他相关公司发送了一份公开信所引发的。

作为一名专业的文章写作高手，我理解您希望获得一个有深度的、具有说服力的论述。针对您提供的内容，我可以为您提供一个更加严谨和有力的表述。尽管 ChatGPT 声称其训练素材未经授权，但是考虑到人工智能在回答中常常没有根据地说三道四（例如，它曾错误地将本文作者描述为刑事律师，并坚称其曾参与处理一起著名强奸案，显然是在胡编乱造，毫无根据），因此，只有当有其他可靠的证据来证实这些说法时，才能使这样的回复在法庭上被视为事实。

二、训练素材包来自知名盗版网站

诉状称：ChatGPT现在提供的不是逐字摘录，而是受版权保护的书籍的摘要，其中通常包含评论和其他公开资料中没有的细节——这再次表明，基础大型语言模型在训练期间必须录入整本书。但OpenAI对于从何处以及如何获得原告受版权保护的作品，始终语焉不详。OpenAI承认，它用来训练模型的训练数据集包括“Common Crawl”和两个高质量的基于互联网的书籍语料库，它称之为“Booksl”和 “Books2.T2”。

Common Crawl是一个庞大且不断增长的语料库，包含从数十亿网页中抓取的“原始网页数据、元数据提取和文本提取”。它被广泛用于训练大型语言模型，除OpenAI的GPT外，还被用于训练脸书和谷歌的人工智能引擎。众所周知，它包含从盗版网站复制的书籍文本（这些书籍文本链接到 Z-Library，一个拥有 1,100多万册图书的大型盗版图书库，然后出现在Common Crawl语料库中，并被纳入到其他大型语言模型的训练数据集）。

OpenAI拒绝讨论Books2数据集的来源。但一些独立的Al研究人员怀疑 Books2 包含或由从大型盗版图书库下载的电子书文件组成，如Library Genesis或 “LibGen”，它提供了一个庞大的盗版文本库：LibGen 作为一个臭名昭著的版权侵权者已为法院所熟知。而Books2 的其他可能来源包括 Z-Library和 Bibliotik 等盗版种子跟踪器，这些跟踪器允许用户批量下载电子书。

原告律师无法证明Books2的数据来源，所以举了著名包含大量盗版内容的训练素材库“Books3”作为类比证据（《连线》杂志报道过，脸书和彭博社的大型语言模型使用了“Books3″的素材库）：已披露的 Books2 数据集的规模表明，该数据集包含10万多本书。Books2和Books3的大小相似，而且互联网上允许批量下载电子书的盗版存储库寥寥无几，这有力地表明Books2中的书籍也是从上文讨论过的臭名昭著的存储库中获取的。

如果这个诉讼是在中国进行的，如果原告初步证明了被告的训练素材存在盗版，此时，举证责任就在被告，被告要证明其训练素材不存在盗版，否则法院就会支持原告的证明内容。

三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT？

诉状称，乔治·马丁是包括《权力的游戏》在内的十五部小说作品的著作权人，OpenAI在未经许可的情况下录入并复制了乔治·马丁的全部或多部作品，并将其用于训练OpenAI 的大型语言模型。诉状中举了两个第三方新闻的例子：

1、2023 年 7 月，一个叫Liam Swayne的程序员使用 ChatGPT 生成了《凛冬的寒风》、《春晓的梦想》的版本，这两本书是马丁正在创作的《冰与火之歌》系列的最后两部作品。

2、美国加州大学伯克利分校的研究人员对ChatGPT对作品的“记忆”程度进行了一项实验，发现马丁的小说《权力的游戏》在“记忆”程度方面排名第12位。

然后，原告律师使用ChatGPT进行测试，输入提示后，ChatGPT准确生成了几部马丁作品的摘要，包括《冰与火之歌》系列的前三部《权力的游戏》、《列王的纷争》、《冰雨的风暴》以及《末日审判布条》最后一章的准确摘要。

原告律师输入提示后，ChatGPT还为马丁作品《列王的纷争》的另一部续集生成了一份详细大纲，并将该衍生作品命名为A Dance With Shadows，其中使用了马丁《冰与火之歌》系列现有书籍中的相同角色。ChatGPT还生成了一份《权力的游戏前传》的详细大纲，并将该衍生作品命名为 A Dawn of Direwolves，其中使用了与《冰与火之歌》系列丛书中相同的人物。

诉状总结：如果OpenAI大型语言模型没有摄取马丁侵权作品并对其进行训练，ChatGPT 就不可能产生上述结果。笔者认为，如果诉讼在中国法院进行，马丁的律师已经证明了ChatGPT使用了马丁的作品进行训练，并且其服务器目前仍然留存着马丁作品的复制件。

四、人工智能训练可以不用获得著作权人的授权吗？

法律原理上，让人工智能学习网上内容的过程是一个复制行为或者临时复制行为，人工智能公司要先将网上的或者线下获得的内容爬取，然后输入到人工智能程序中，无论这个内容是文字、图片、音频、视频还是程序，复制行为都应当获得相应权利人许可，否则就涉嫌侵权。

实际上我国法律法规也是这么规定的，根据我国《著作权法》和七部门联合发布的《生成式人工智能服务管理暂行办法》，我国的生成式人工智能服务提供者（以下称提供者）开展预训练、优化训练等训练数据处理活动时，不得侵害他人依法享有的知识产权，也就是说，训练素材需要取得著作权人的许可。在美国，如前文所述，训练人工智能的版权素材需要著作权人授权。

但对这个问题，也有国家的规定不太一样，比如根据日本著作权法第30条第4款，用版权内容训练人工智能属于合理使用：如果不以欣赏作品中表达的思想或情感为目的，且没有不合理的损害著作人权人权益的，可以合理使用他人享有著作权的作品。

笔者觉得，虽然日本的规定立法目的可能是为了振兴该国的人工智能产业，但其实也是一个思路，因为人工智能生成的内容不受著作权法保护，那其创造的内容就是全民共有的，那把所有的版权作品都让其学习一下，成果出来了大家都不需要授权就可以用，这个说不定也挺好。

（文章仅代表作者观点。责编邮箱：yanguihua@jiemian.com。）

举报/反馈

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

一、被告自认（其实是ChatGPT自认）

二、训练素材包来自知名盗版网站

三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT？

四、人工智能训练可以不用获得著作权人的授权吗？

相关文章

发表回复 取消回复

发表回复取消回复