文章主题:Moss, 媒体平台, 用户量, 服务器
由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT
在全球各大媒体平台引发了一场热情洋溢的狂潮。短短4天内,用户数量激增至百万人,庞大的注册用户群体使得服务器承受了巨大压力,一度出现拥挤状况。
近期,由于ChatGPT强大的使用功能,国内外对于语言模型的关注持续高涨。相比之前的生成式对话产品,ChatGPT在大范围连续对话能力、生成内容质量、语言理解能力和逻辑推理能力上都得到了显著的提升,超出了大众对于一款聊天机器人的预期,是生成式AI(AIGC)极为关键的发展节点。
2023年4月21日,复旦大学自然语言处理实验室开发的新版 MOSS 模型正式宣布上线,成为国内首个插件增强的开源对话大语言模型。
据我国官方消息发布,MOSS相关的代码、数据以及模型参数已经在GitHub和Hugging Face等平台上公开,这为科研工作者提供了方便的下载渠道。
MOSS 的 GitHub 页面链接:
GitHub – OpenLMLab/MOSS: An open-source tool-augmented conversational language model from Fudan University
模型
在本研究中,我们成功地利用MOSS-003基座模型进行了自监督预训练,该模型是在大量高质量的中英文语料上完成的。预训练语料库包含了大约700B的词汇量,同时,计算量也达到了惊人的6.67×10²²次浮点数运算。这一成果充分展示了MOSS-003基座模型的强大性能和深度学习技术的卓越能力。
在大约110万多次的对话数据中,我们对基座模型进行了微调,使其具备了指令遵循、多轮对话以及规避有害请求等特性。
在对超过110万轮对话数据以及近30万插件增强的多轮对话数据进行微调之后,MOSS-MOON-003-SFT插件得以完善。此外,该插件还在MOSS-MOON-003-SFT的基础上,增大了使用搜索引擎、文生图、计算器以及解方程等四种插件的可能性。
本文作者将不久后分享一种基于MOSS-MOON-003-SFT收集的偏好反馈数据训练出的偏好模型。
经过在MOSS-MOON-003-SFT模型的基础上进行优化,我们成功地训练出了偏好模型MOSS-MOON-003-PM,从而实现了显著的提升,包括事实性、安全性和回复质量的稳定性。我们很高兴地宣布,这一改进后的模型将在不久的将来开源,以供广大开发者社区分享和使用。
moss-moon-003-plugin是一款基于moss-moon-003-sft-plugin并进行深度优化的插件,其上搭载了moss-moon-003偏好模型进行训练,这使得该 plugin 在理解和应用意图方面表现更为出色。预计这款经过优化的插件将在不久的将来正式开源,为广大开发者带来更为强大的插件使用体验。
数据
MOSS-002所采用的多轮对话数据,涵盖了有益性、真实性以及安全性等多个方面,其中包括 approximately 570,000 条由 Text-Davinci-003 生成的英文对话以及 590,000 条中文对话。
moss-003-sft-data: moss-moon-003-sft所使用的多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,相比moss-002-sft-data,moss-003-sft-data更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。目前仅开源少量示例数据,完整数据将在近期开源。
moss-003-sft-plugin-data: moss-moon-003-sft-plugin所使用的插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。目前仅开源少量示例数据,完整数据将在近期开源。
moss-003-pm-data: moss-moon-003-pm所使用的偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据,将在近期开源。
MOSS用例
图片来源于MOSS的GitHub页面
图片来源于MOSS的GitHub页面
复旦大学计算机科学技术学院教授MOSS系统负责人邱锡鹏说,人们之所以很容易有“卡脖子”问题,是因为缺乏一个好的行业生态。就拿ChatGPT来说,OpenAI公司只需专注做好模型,算力、数据和系统则交给其他公司。反观国内,很多公司在做大型语言模型时所有环节都需要自己做,每家的数据和算力也有限,结果是每家都做不大。在发展过程中,大型语言模型训练与在线推理成本过高也是一个重大问题。
“我们考虑把MOSS开源而不是商业化,就是希望改善这种生态,有了这样一个基座,大家就不用重复开发底层技术,可以在上面接不同的细分领域。”复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏说。
内测链接:https://moss.fastnlp.top/
阅读全文
领取更多免费课程资料
分享、在看与点赞,至少我要拥有一个吧
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!