「MOSS与ChatGPT的差距在哪里？」

文章主题：ChatGPT, MOSS

复旦MOSS大模型与chatGPT差距在哪？

数据质量的差别是主要瓶颈之一。相较于英文数据，中文数据的开源程度较低，导致中文数据集的规模相对较小。此外，英文作为科研主流语言，在学术界和工业界中得到广泛应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。

🎉🚀 MOSS, the first domestically developed language model similar to ChatGPT, has been released by Professor邱锡鹏’s team from Fudan University. The excitement among various sectors is palpable as people eagerly participate in the internal testing phase. A notable feedback is that MOSS’ English responses are higher than its Chinese counterparts, echoing a similar phenomenon observed in public interactions with ChatGPT. 🤔🤔🤔Why does this happen?

🎉 数据质量是制约粤港澳大湾区数字经济研究院（IDEA）认知计算与自然语言中心文本生成算法团队发展的关键瓶颈之一。相较于英文数据，中文数据的可用性较低，导致中文数据集的规模相对较小。此外，由于英文作为科研主流语言，在学术界和工业界中得到了广泛的应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。

MOSS团队承认，尽管他们的英文回答质量较高，但与中文相比仍存在差距。这是因为MOSS的模型基础是基于3000多亿个英文单词的学习，而中文词汇的学习量只有大约300亿个。

🎉中文自然语言处理领域需要更多的投入和努力来积累高质量的数据！📚对于中文来说，高质量无监督语料和指令数据尤其严重不足。这对我们的研究和发展带来了很大的挑战。但是，我们不能因此而放弃。我们需要找到一种方法来解决这个问题。首先，我们需要建立一个强大的数据库，其中包含各种各样的文本，包括新闻、小说、博客、社交媒体帖子等等。这些文本应该来自不同的来源，以确保我们的数据具有多样性。其次，我们需要使用先进的自然语言处理技术来清洗和预处理这些数据。这可能包括去除停用词、标点符号和其他无关的字符，以及将文本转换为小写或大写。最后，我们需要将这些数据开源，以便其他人可以使用它们进行研究和开发。这样，我们就可以共享我们的知识和资源，促进中文自然语言处理的发展。让我们一起努力，为中文自然语言处理领域做出贡献！💪#中文自然语言处理#高质量数据#开源#知识共享

“在人工智能领域，黄民烈教授是一位备受尊敬的专家。他曾经制定了一项全球性的标准——《AI对话系统分级定义》。这项标准不仅为AI对话系统的开发和评估提供了明确的指导，也对推动AI技术的发展起到了重要的作用。””作为聆心智能的创始人，黄民烈教授在人工智能领域有着深厚的造诣。他的这一贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。””在人工智能领域，黄民烈教授是一位值得尊敬的专家。他的贡献不仅体现在他制定的标准上，更体现在他所创立的聆心智能公司，该公司致力于研发先进的AI对话系统，为用户提供优质的智能化服务。””对于人工智能的发展，黄民烈教授始终保持着高度的热情和责任感。他认为，AI技术不仅可以改变我们的生活方式，还可以推动社会的进步和发展。因此，他一直致力于推动AI技术的研发和应用，希望能够帮助人们更好地理解和利用这项技术。”

从数据和应用的角度来看，中国的科技企业目前来看有比较大的优势。国内产出大量数据，数据准确性和可靠性提升有助于模型学习生成。应用场景广阔，新闻、广告、教育等领域带来优质数据，实现双飞轮运转，加速AIGC领域成长。

2月20日晚，MOSS发布至公开平台（https://moss.fastnlp.top/），邀公众参与内测。当晚，社交媒体上出现截图，显示该平台“服务器流量过载，请明天上午重试”。随后，该平台官网发布一则公告，解释称“计算资源不足以支持如此大的访问量”，“给大家造成非常不好的体验和第一印象”，并致以真诚的歉意。

复旦MOSS团队回应体验“非常不好”：距离ChatGPT还有很长的路。

在公告中，MOSS研究团队称，“MOSS只是想在百亿规模参数上探索和验证ChatGPT的技术路线，并且实现各种对话能力”。

那么AI对话技术发展到今天经过了哪些关键节点？

当下的“技术路线”又是什么？

黄民烈解答道，回顾早期聊天机器人的对话，大部分都是基于规则的，第二代在技术上混合了一些规则和机器学习的方法。到了第三代，就是以Transformer为基本架构的大模型作为技术底座，实际上还是在一个新的神经网络架构下，结合大量的数据和算力优化去做到的，所以技术上有了显著的一些进步。由于对话本身就是在语言处理中最重要也是最难的任务，也就是最近一两年，才因为大模型的发展使得聊天机器人在性能上有接近人类的表现。

复旦大学计算机科学技术学院教授邱锡鹏此前曾表示，“GPT-3的In-context learning是一个我觉得有变革性的范式。不再需要调参，给一些提示，就可以去做任务了。这个目前虽然说质量并没有调参的好，但也能达到一个不错的效果，这个会让大模型看起来更加智能”。

什么是In-context learning（上下文学习）？

“以前的方式是基于模型参数调整的，比如说要识别猫，然后看模型能不能检测到猫的位置。如果标的不对，再通过误差反过来去调整参数，使得预测和正确位置对应起来。上下文学习则是圈出来猫的位置，然后再给它一张另外的图片，问它猫在哪里？它就能够正确圈出来。这个任务它之前没有见过，但是通过这样的方式就学会了。”邱锡鹏讲解道。

调参极耗费人力和时间成本，尤其是GPT-3这样的超大模型。碳同化系统Carbontracker估计，训练GPT-3一次所需的电量与丹麦126户家庭每年使用的电量相同。而In-context learning可以让一个未经进一步调参的预训练大模型，通过给其恰当的demonstration（示例）学会完成目标任务。

黄民烈也提到上下文理解技术。“ChatGPT最大的特点是通用任务助理，也就是在一个模型之内可以完成如此之多的开放任务，同时它在生成任务、上下文理解、安全伦理方面也有相当好的表现。”

总结而言，黄民烈认为，这里面的技术突破是一个技术、工程、数据的综合性工程创新，是一个长期积累从量变到质变的过程。比如从GPT-3到代码，到加instruct，到RL，以及数据和模型之间的飞轮，造成了这些质变。

转载来源：世界科学返回搜狐，查看更多

责任编辑：

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

相关文章

发表回复 取消回复

发表回复取消回复