文章主题:中文通用大模型, SuperClue, 排行榜, 百度文心一言
在7月25日发布的最新版中文大语言模型排行榜中,SuperClue基准显示了百度文心一言的总分超过了GPT-3.5-Turbo,成为我国大型语言模型的领军者。这一结果进一步证明了中国人工智能领域的实力与领导地位。
SuperCLUE-Opt评估标准作为SuperCLUE综合性三大基准之一,每期包含3700道客观题目(包括选择题)。这些题目分为三个主要部分:基础能力(共10个子任务)、中文特性能力(共10个子任务)以及学术专业能力(共50个子任务)。通过这些题目,我们可以全面评估大模型在超过70个任务中的综合性能。
在本次的SuperCLUE评测中,我们围绕基础能力、专业能力和中文特性能力这三个核心维度,对70余个子能力进行了全面评估。为了保证评测的公正性和客观性,我们从国内外挑选了20个大模型进行对比测试。这些模型不仅具备强大的综合能力,而且在针对中文任务的理解和积累方面也表现出色。通过自动化的测评方式,我们得以以相对客观的态度对各模型的性能进行评价。在总排名中,文心一言的表现相当出色,其总分甚至超过了GPT-4,同时在国内其他大模型中位居榜首。这充分证明了文心一言在各项能力上的优秀表现,展现了其在中文领域的独特优势。
经过榜单的对比分析,我们发现尽管国外的 GPT-4 在效果上占据优势,但是我国的 GPT 模型也都有着出色的表现。特别是在中文领域,我国自主研发的大模型在某些方面有着明显的优势,逐渐缩小了与国际社会先进模型的差距。综合来看,我国大模型中,百度文心一言的表现最为突出。文心一言 v2.2.0 版依赖于的是文心大模型 3.5,而文心大模型自 2019 年 3 月发布的 1.0 版以来,已经升级到了 3.5 版。新版本的模型在效果上提升了 50%,训练速度提高了 2 倍,推理速度则提高了 30 倍。
据深入了解,本次评价的SuperClue是我国本土推出的一份大模型榜单,被视为中文领域的权威评估平台。与国外UC伯克利LLM排名以及斯坦福AlpacaEval排名等知名榜单相比,SuperClue更倾向于纳入我国自身的大模型,从而使得其更适合国内用户进行横向对比。SuperClue旨在为中文环境提供一种通用的、大规模模型评估标准。为了全面衡量这些模型的性能,SuperClue采用了多元化的评测维度,但在测试过程中,由于问题均为封闭式,因此对于大模型来说,这份评测实际上是一场”闭卷考试”,难度更大。
在评测基准中,我们的评估标准涵盖了基础能力和专业能力两大方面。其中,基础能力部分,我们关注的是那些常见且具有代表性 model 能力,包括但不限于语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等十项能力。而专业能力则主要针对中学、大学和专业知识考试,其覆盖的领域广泛,包括数学、物理、地理、社会科学等多个学科,共计50多项能力。此外,我们还关注了中文特有的各项能力,例如中文成语、诗歌、文学、字形等十项。
值得一提的是,全球领先的IT市场研究和咨询公司IDC最新发布《AI大模型技术能力评估报告,2023》显示,百度文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一,行业覆盖第一,其中也是算法模型维度的唯一一个满分 。另据近期多个公开测评显示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表现;综合能力在评测中超过ChatGPT,遥遥领先于其他大模型,稳居国内第一。
中文通用大模型, SuperClue, 排行榜, 百度文心一言
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!