2022年11月,生成式人工智能(AI)随着ChatGPT的发布进入公众视野。一年来,以ChatGPT为代表的大语言模型风靡全球,中文世界也诞生了文心一言等同类产品。不过,在ChatGPT诞生的美国,开发该技术的谷歌等公司被视为一直在非法使用受版权保护的新闻作品训练聊天机器人,这样抓取数据学习的过程,涉嫌侵权。
▲研讨会现场。主办方供图
在11月24日下午举行的第九届版博会子单元——“保护知识产权 促进创新发展——著作权法配套法规修订热点问题研讨会”上,来自高校、司法机关、仲裁机构等领域的专家展开探讨时,ChatGPT等大语言模型抓取数据是否侵犯了著作权话题引发热议。专家们认为,是否构成侵权,还得综合多方面因素来看。
ChatGPT等大语言模型是一种理解并生成书面文本的AI,它们通过分析大量数据和模仿写作模式来训练,同时输出看似百科全书般的知识。然而,由于许多开发者并没有公开透露哪些内容被输入他们的模型进行训练,所以不可能确切地知道哪些数据被引用或复制,是否获得相关著作权权利人授权使用,更不得而知。
不久前的10月31日,代表2200多家美国媒体机构的行业组织“新闻媒体联盟”发布一份77页的白皮书,称一些最受欢迎的AI聊天机器人,如ChatGPT和谷歌的“巴德”,严重依赖新闻文章来训练它们的技术,“我们的文章被投喂后又一字不差地吐出来”,直接导致了它们生成的答案几乎与受版权保护的内容相同。
针对类似争议,中国社会科学院法学研究所李明德教授认为,如果开发公司在预先训练ChatGPT等大模型时,使用了有著作权的作品等文本数据,且用于商业用途,本身就是侵权。这些在侵权基础上训练学习后创作的作品,版权算谁的?正在修订中的著作权法实施条例如何认定,目前还不得而知。他提醒,要保证侵权行为不存在,那就一定要强调数据挖掘和文本发掘是用作“非商业性”的使用。
如何看待机器学习数据挖掘,华东政法大学知识产权学院院长丛立先教授提出了个人看法,“假设给机器数据挖掘合理使用的便利,也就是说,它在形成作品之前具有极大便利,然后机器学习产生的所有作品又都不受版权保护,会产生一个什么问题?直接的后果就是,机器学习领域有可能会置身于版权法之外,这值得思考。”
丛立先称,现在知识应用场所的数字挖掘和人工智能会带来很大的知识进步,对社会有很大帮助和支持。如果在机器学习的前端给它便利,同时它产生的作品也受人类控制,那么机器学习生成的便利符合人类可持续发展需要,也应该给予知识产权保护,“但这不同于人身权和财产权保护,相关制度可通盘考量,可以叫‘有限著作权保护’,以此促进人工智能的发展,促进其他的知识利用者,进行相应的知识学习和利用。”
华东政法大学法律学院教授王迁则强调,谈到AI训练、机器学习,有两个问题需要重点关注:一是输出端问题,AI训练要重点解决输入端问题;二是涉及演绎权的问题,包括人工智能对文本数据的改编、翻译和汇编等。
“从《著作权法》的角度看,AI诞生开始就面临着未经许可将他人作品作为训练数据使用,是否构成著作权侵权的问题。”王迁介绍,目前包括欧盟、英国、日本都有了相应的立法,主要限于AI训练方式的“非商业目的”。今年8月,国家网信办也已联合多部委出台了一个生成式人工智能的管理办法,“随着AI越来越强大,与其等到有一天我们被动应对这些难题,不如早一点为AI立法。”王迁称。
举报/反馈