MOSS：为何其英文水平高于中文？数据质量瓶颈与学术优势揭示背后原因

MOSS 3 年前 0 0

文章主题：MOSS, 英文, 数据质量, 中文

🎉🚀 钛媒体App 2月21日报道！🚀🎉昨晚，复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS，引起了广大网友的热烈反响。👀👀一个显著的特点是，MOSS在英文回答上的水平明显高于中文。这与公众和ChatGPT之间的互动情况非常相似。🤔🤔那么，为什么会出现这样的现象呢？🤔🤔让我们一起探索这个问题的答案吧！🚀🚀

深圳粤港澳大湾区数字经济研究院(IDEA)认知计算与自然语言中心文本生成算法团队负责人王昊表示，“数据质量的差别是主要瓶颈之一。相较于英文数据，中文数据的开源程度较低，导致中文数据集的规模相对较小。此外，英文作为科研主流语言，在学术界和工业界中得到广泛应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。”MOSS研究团队也坦承，“MOSS的英文回答水平比中文高，因为它的模型基座学习了3000多亿个英文单词，中文词语只学了约300亿个。”

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

相关文章

发表回复 取消回复

发表回复取消回复