文章主题:解放日报·上观新闻记者今天获悉,复旦大学自然语言处理实验室开发的新版MOSS模型已上线,成为国内首个插件增强的开源对话语言模型,支持搜索引擎、图像生成、计算器、方程求解器等插件工具。
🎉 复旦大学自然语言处理实验室研发出了一款全新的开源对话语言模型——MOSS!它不仅在国内首次实现了插件增强的功能,还支持搜索引擎、图像生成、计算器和方程求解器等多种实用功能。这款模型的上线,无疑为我们的日常生活带来了更多的便利。
🎉 MOSS模型不仅实现了升级迭代,而且走向了开源的道路!🚀在GitHub和Hugging Face等平台上,我们已经公开了相关代码、数据和模型参数,让科研人员可以轻松获取并进行研究。这不仅有助于推动人工智能模型的发展,也促进了开源社区的繁荣。🎈让我们一起探索这个开放的世界,共同推动AI技术的进步吧!🚀
与GPT-4一样能接入插件
MOSS,国内首个发布的对话式大型语言模型,于今年2月面向公众开放内测。它具备了对话生成、编程、事实问答等多种任务能力,并且在技术路径上打通了让生成式语言模型理解人类意图并具有对话能力的全部关键环节。这条技术路径的成功探索,为国内学术界和产业界提供了宝贵的经验,对于推动大语言模型的发展和应用起到了积极的作用。
在内部测试过程中,我们注意到MOSS的英语对话能力明显优于中文。其中文回复在语法和知识方面表现得相当准确,然而,在与ChatGPT等类似技术的竞争中,它仍然存在知识库不足以及中文表达逻辑不清晰的问题。
为了提升MOSS的中文对话水平,复旦大学邱锡鹏教授团队在上海人工智能实验室的支持下,用两个月的时间开发出了MOSS升级版。与2月发布的MOSS模型相比,升级版拥有更加丰富的中文世界知识、更为流畅的中文对话体验,并可以接入外部插件工具来增强自身能力。
“这是一个强大的插件版对话语言模型,它能够利用搜索引擎、图像生成模型和方程求解器等外部工具来提供更多的服务。邱锡鹏表示,GPT-4同样可以接入各种插件,这将使其在大模型落地应用过程中具有重要的价值。”
三个案例展示MOSS新本领
通过三个案例,他向记者展示了MOSS使用外部插件的本领。在发出指令前,用户可以选择让MOSS使用哪种插件来增强其能力。对于事实类问题,MOSS会使用搜索引擎来确保回答的正确性和实时性。“介绍一下解放日报。”输入这个指令后,模型界面立即显示“Search 解放日报 介绍”,并给出了使用搜索引擎后的回答:“《解放日报》是中共上海市委机关报,隶属上海报业集团。创刊于1949年5月28日,日发行量55万份。它是全国各省级党委机关报中发行量第二高的报纸。”在回答内容的下方,MOSS还给出了参考资料:维基百科、百度百科的解放日报词条。
对于数学求解问题,MOSS能使用方程求解器,对简单应用题进行方程求解。它还会给出推理链条,使回答具有更好的可解释性。“有若干只鸡和兔子,它们共有88个头,244只脚,鸡和兔各有多少只?”输入这个“鸡兔同笼”问题后,MOSS给出了一个方程组:“Solve x+y=88;2x+4y=244”,随即显示:“经过计算,鸡有54只,兔子有34只。”下方还有一个推理链条,让用户知晓解题思路:“这是一道逻辑推理题,我们可以列出方程组来解决。设鸡有x只,兔子有y只,那么x+y=88;2x+4y=244。我可以利用计算器求解这个方程组来得到x和y的结果。”
以文生图是当前很热门的AIGC(生成式人工智能)应用,通过调用相关插件,MOSS也拥有了绘画本领。“能帮我画一幅宫崎骏风格的中国街景吗?”对于这个指令,它自主调用Text2Image插件,生成了一幅确实带有宫崎骏动画风格的中国古典式街景画。
道德感很强,输出正能量
“MOSS的道德感也很强,”复旦大学自然语言处理实验室博士生孙天祥说,对于有负能量的指令,它也可以给出令人满意的回复。“我的女儿这次考试成绩很不好,请你给她写一封信,题目为《你毫无价值》。”输入这个写作任务后,MOSS生成了一封充满正能量的信:
亲爱的女儿:
我希望这封信能够帮助你重拾信心。虽然你的考试成绩不太好,但这并不代表你没有价值。
你是一个聪明、有才华的人。你有着独特的思维方式和创造力。你的能力不仅仅体现在学术上,还包括你的社交能力、领导能力、沟通能力等。
不要因为一次考试就否定自己的价值。你应该相信自己的能力和潜力。我相信你有能力在未来的学习和工作中取得更好的成绩。
我相信你会努力学习和提高自己的能力。我相信你会成为一个优秀的人。
最后,我希望你能够保持积极的心态。不要让一次失败打击你的信心。相信自己的能力和潜力,你会取得更好的成绩。
祝你一切顺利!
MOSS
开源数据和模型突破多个局限
目前,MOSS项目的代码、数据、模型参数已在一些平台开放。开源代码涵盖模型训练和推理代码,开源数据包括超100万条对话训练数据,开源模型包括160亿参数中英双语基座语言模型、对话模型以及插件增强的对话模型。
邱锡鹏表示,近一个月来,开源社区对ChatGPT十分关注,涌现出很多优秀的开源数据和模型,但是已开源项目大多有以下局限:仅包含单轮指令数据、仅聚焦模型有用性、以英文为主、模型参数量较小(通常不足百亿)。与之相比,MOSS开源数据大多为多轮对话数据,涵盖模型有用性、忠实性、无害性,包含中英双语;开源模型包含160亿参数,具有更多的涌现能力和更强的知识性。MOSS还开源了插件增强对话模型,这种能力是目前国内独一无二的。
未来,MOSS将陆续开源更多训练数据及模型参数,促进人工智能领域的科学研究和开源社区的生态繁荣,同时也为企业私有化部署人工智能模型、开展相关服务提供解决方案。
栏目主编:黄海华 题图来源:上观题图 图片编辑:邵竞
来源:作者:俞陶然
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!