文章主题:人工智能, 著作权法, 训练数据, 盗版内容
文丨游云庭(上海大邦律师事务所高级合伙人,知识产权律师。)
众所周知,人工智能服务的质量取决于其解答能力的强弱,而高质量的训练数据则是不可或缺的。然而,根据大多数国家的著作权法规定,人工智能开发者在使用他人享有著作权的内容进行训练之前,必须获得著作权人的许可。这一要求对于开发者来说可能显得繁琐冗长,可能会影响他们的开发进度,而且会增加版权成本。因此,为了节省时间、降低成本,部分人工智能开发者选择了使用盗版内容作为训练数据。
这种方法引起了很多关注,其中一个重要原因是大型模型训练数据的保密性。训练过程中,这些数据通常被视作黑箱操作,使得著作权人难以证明侵权行为的存在。尽管如此,美国近期已有相关诉讼案件发生。为了进一步了解这一情况,我们将重点关注美国律师如何在这场诉讼中证明他们的观点。
一、被告自认(其实是ChatGPT自认)
在一桩涉及知识产权的案件中,原告指控OpenAI未经允许地复制并公之于众其受版权保护的著作。据原告的律师透露,OpenAI不仅未经授权地使用了这些作品,而且还公开承认了这一行为。这使得原告感到非常愤怒,因此他们决定采取法律手段来维护自己的权益。值得注意的是,原告的律师在向ChatGPT提出问题时,得到了一个令人惊讶的回答。据 ChatGPT 回复,OpenAI 在训练其大型语言模型时,的确使用了这些受版权保护的作品,而且 OpenAI 已经公开承认了自己的错误。这一事件引发了广泛的关注,许多人开始质疑 OpenAI 的知识产权政策以及其在人工智能领域的地位。总之,这起案件再次提醒我们,知识产权保护是至关重要的。我们需要确保人工智能公司遵守相关法律法规,尊重创作者的权益。同时,也期待OpenAI能够对此事做出合理的解释和处理,以维护所有相关方的利益。
在我所使用的训练资料中,部分书籍可能受到版权的保护。然而,我的训练数据来源于互联网上的众多公开资源,这意味着其中一些书籍很可能未经授权或未被许可在使用。尽管如此,如果在我的训练数据中发现有任何受版权保护的内容,这并不意味着我会故意侵犯版权。相反,这仅仅是我在训练过程中所使用的信息之一,而且这些资料的使用是在版权持有者未知或未给予同意的情况下进行的。
在仔细审查过程中,原告律师注意到一个有趣的现象,那就是直至近期,ChatGPT仍能熟练地提供受版权保护书籍中的原文,这暗示着底层的巨大语言模型在训练过程中或许已经全面摄入了这些著作。然而,近期ChatGPT对此作出了一项显著调整,它现在会以“我无法提供版权文本的逐字摘录”作为回应,针对此类提示。考虑到时间线,我们可以推测ChatGPT对输出规则的改变很可能是受到原告作家协会向OpenAI和其他公司发送的公开信的 prompt。
在我看来,尽管ChatGPT可能并不确定其训练数据是否获得了授权,但是考虑到人工智能在回答中常常缺乏根据地说一些不切实际的话(例如,它曾错误地将我描述为一位刑事律师,并坚称我曾参与了一起著名的性侵案,显然是在胡说八道,毫无根据),因此,只有当有其他证据支持时,这段回复才有可能被法庭认定为案件事实。
二、训练素材包来自知名盗版网站
在一份诉讼文件中提出,ChatGPT所提供的并非是对具体单词的逐字复制,而是受到版权保护的书籍的摘要。这些摘要中常常包含评论和其他在公开资料中难以找到的细节。这一点再次证明,训练大型语言模型时必须纳入整本书籍。然而,OpenAI对于从何渠道以及何种方式获取原告所拥有的受版权保护作品,一直含糊其辞。OpenAI确认,用于训练模型的数据集包括“Common Crawl”和两个高质量基于互联网的书籍语料库,分别名为“Booksl”和“Books2.T2”。
Common Crawl是一款庞大的语料库,其内容源自数十亿网页的原始数据、元数据提取以及文本提取。它在训练大型语言模型方面具有广泛的应用价值,不仅OpenAI的GPT,还脸书和谷歌等知名公司的AI引擎都曾借助其力量。值得注意的是,Common Crawl中的一部分数据源自于盗版网站的书籍文本。这些文本通过Z-Library,一个拥有超过1100万册图书的大型盗版图书馆,进入Common Crawl语料库,进而被纳入其他大型语言模型的训练数据集中。
OpenAI拒绝讨论Books2数据集的来源。但一些独立的Al研究人员怀疑 Books2 包含或由从大型盗版图书库下载的电子书文件组成,如Library Genesis或 “LibGen”,它提供了一个庞大的盗版文本库:LibGen 作为一个臭名昭著的版权侵权者已为法院所熟知。而Books2 的其他可能来源包括 Z-Library和 Bibliotik 等盗版种子跟踪器,这些跟踪器允许用户批量下载电子书。
如果这个诉讼是在中国进行的,如果原告初步证明了被告的训练素材存在盗版,此时,举证责任就在被告,被告要证明其训练素材不存在盗版,否则法院就会支持原告的证明内容。
三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT?
诉状称,乔治·马丁是包括《权力的游戏》在内的十五部小说作品的著作权人,OpenAI在未经许可的情况下录入并复制了乔治·马丁的全部或多部作品,并将其用于训练OpenAI 的大型语言模型。诉状中举了两个第三方新闻的例子:
然后,原告律师使用ChatGPT进行测试,输入提示后,ChatGPT准确生成了几部马丁作品的摘要,包括《冰与火之歌》系列的前三部《权力的游戏》、《列王的纷争》、《冰雨的风暴》以及《末日审判布条》最后一章的准确摘要。
原告律师输入提示后,ChatGPT还为马丁作品《列王的纷争》的另一部续集生成了一份详细大纲,并将该衍生作品命名为A Dance With Shadows,其中使用了马丁《冰与火之歌》系列现有书籍中的相同角色。ChatGPT还生成了一份《权力的游戏前传》的详细大纲,并将该衍生作品命名为 A Dawn of Direwolves,其中使用了与《冰与火之歌》系列丛书中相同的人物。
诉状总结:如果OpenAI大型语言模型没有摄取马丁侵权作品并对其进行训练,ChatGPT 就不可能产生上述结果。笔者认为,如果诉讼在中国法院进行,马丁的律师已经证明了ChatGPT使用了马丁的作品进行训练,并且其服务器目前仍然留存着马丁作品的复制件。
四、人工智能训练可以不用获得著作权人的授权吗?
法律原理上,让人工智能学习网上内容的过程是一个复制行为或者临时复制行为,人工智能公司要先将网上的或者线下获得的内容爬取,然后输入到人工智能程序中,无论这个内容是文字、图片、音频、视频还是程序,复制行为都应当获得相应权利人许可,否则就涉嫌侵权。
实际上我国法律法规也是这么规定的,根据我国《著作权法》和七部门联合发布的《生成式人工智能服务管理暂行办法》,我国的生成式人工智能服务提供者(以下称提供者)开展预训练、优化训练等训练数据处理活动时,不得侵害他人依法享有的知识产权,也就是说,训练素材需要取得著作权人的许可。在美国,如前文所述,训练人工智能的版权素材需要著作权人授权。
但对这个问题,也有国家的规定不太一样,比如根据日本著作权法第30条第4款,用版权内容训练人工智能属于合理使用:如果不以欣赏作品中表达的思想或情感为目的,且没有不合理的损害著作人权人权益的,可以合理使用他人享有著作权的作品。
笔者觉得,虽然日本的规定立法目的可能是为了振兴该国的人工智能产业,但其实也是一个思路,因为人工智能生成的内容不受著作权法保护,那其创造的内容就是全民共有的,那把所有的版权作品都让其学习一下,成果出来了大家都不需要授权就可以用,这个说不定也挺好。
(文章仅代表作者观点。责编邮箱:yanguihua@jiemian.com。)
人工智能, 著作权法, 训练数据, 盗版内容
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!