GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

大模型

在2023年的“百模大战”中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。如何能合理地评价这些模型的能力，成为关键问题。

全文共计1005字，预计阅读时间3分钟来源| 清华大学人工智能研究院（转载请注明来源）编辑| 数据君尽管国内外存在多个模型能力评测榜单，但它们的质量参差不齐，排名差异显著，这主要是因为评测数据和测试方法尚不成熟和科学。为提供客观、科学的评测标准，清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架，旨在推动大模型技术、应用和生态的健康发展。

近期，SuperBench团队发布了2024年3月的《SuperBench大模型综合能力评测报告》。在此评测中，SuperBench团队选定了GPT-4 Turbo、GPT-4 网页版、Claude-3、GLM-4、Baichuan3 网页版、KimiChat 网页版、Abab6、文心一言4.0、通义干问2.1、qwen1.5-72b-chat、qwen1.5-14b-chat、讯飞星火3.5、云雀大模型、Yi-34b-chat等14个海内外具有代表性的模型进行测试。对于闭源模型，SuperBench团队选取API和网页两种调用模式中得分较高的一种进行评测。

报告主要结论● 整体来说，GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位，国内头部大模型GLM-4和文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小。● 国外大模型中，GPT-4系列模型表现稳定，Claude-3也展现了较强的综合实力，在语义理解和作为智能体两项能力评测中更是获得了榜首，跻身国际一流模型。● 国内大模型中，GLM-4和文心一言4.0在本次评测中表现最好，为国内头部模型；通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后，在部分能力评测中亦有不俗表现；但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距，国内模型仍需努力。大模型能力迁移&SuperBench自大语言模型诞生之初，评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展，对其性能重点的研究也在不断迁移。根据我们的研究，大模型能力评测大概经历如下5个阶段：2018年-2021年：语义评测阶段早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取)，相关评测主要考察语言模型对自然语言的语义理解能力。代表工作：BERT、 GPT、T5等。2021年-2023年：代码评测阶段

随着语言模型能力的增强，更具应用价值的代码模型逐渐出现。研究人员发现，基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力，代码模型成为研究热点。代表工作：Codex、CodeLLaMa、CodeGeeX等。

2022年-2023年：对齐评测阶段随着大模型在各领域的广泛应用，研究人员发现续写式的训练方式与指令式的应用方式之间存在差异，理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图，为大模型的广泛应用奠定了基础。代表工作：InstructGPT、ChatGPT、GPT4、ChatGLM等。2023年-2024年：智能体评测阶段基于指令遵从和偏好对齐的能力，大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能（AGI）的重要方向。代表工作：AutoGPT、AutoGen等。2023年-future：安全评测阶段随着模型能力的提升，对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判，确保大模型的可控、可靠和可信，是未来“AI 可持续发展”的关键问题。