文章主题:ChatGPT, 人工智能, 科大讯飞, 星火

666AI工具大全,助力做AI时代先行者!

仅仅200多天前,ChatGPT的问世引领了全球人工智能革命,其在短短两个月内便吸引了全球上亿用户,这无疑打开了通往更高层次人工智能发展的大门。而仅在100多天后,中国科大讯飞推出了包含七大能力维度的通用认知大模型“星火”,从而将大模型战争推向了白热化的阶段。如今,随着科大讯飞星火认知大模型V2.0的升级发布,这场大模型战役已经进入了“2.0”时代。

在8月17日,《MIT Technology Review》(麻省理工科技评论)中国版(简称“MIT科技评论”)上,一场专业的评测活动针对国内四大主流大模型——讯飞星火(V2.0)、百度文心一言(V2.2.2)、商汤商量(V2.0)以及阿里通义千问(V1.0.5)进行了深入研究。此次评测从学术角度出发,对这四款中文大模型的性能进行了全面而深入的评估。值得一提的是,这是我国学术界首次基于最新版中国大模型进行的横向评测。根据评测结果,讯飞星火表现最为出色,其总分达到了81.5分,远远高于其他三款模型。其中,与第二名相比,讯飞星火的得分差距甚至高达6.3分,足见其在中文大模型领域的优势地位。这一结果也充分证明了讯飞星火在人工智能领域的强大实力和广阔前景。

MIT科技评论在评估过程中所采用的方法严谨实用,其流程主要包括建立题库、筛选测试题、应用测试集以及送回题库等步骤,这一流程也被用于构建Prompt(提示词)测试集。本次测试集共包含600道题目,题库的来源涵盖了多个领域,包括行业标准题库、专家设计题库、社区贡献的题库,以及来自已有的研究和竞赛中经过验证的题库。这样的设计旨在尽可能地扩展测试集题库的丰富性和多样性,以便覆盖更多的应用场景和行业领域。

在星火1.5版本时期,讯飞便对数学能力进行了提升,这一特点在2.0版本中得以进一步强化。当面对“求x2<9”这样的求解不等式数学题目时,星火V2.0模型不仅给出了正确的答案,同时也提供了详细的解题步骤,让人们不仅了解结果,更能理解其中的道理,展现出数理逻辑的严密性。在这个测试中,星火V2.0模型的得分为77.75%,远高于平均水平的56%,充分展示了其“最擅长计算”的能力。

星火V2.0在代码能力方面也得到了显著的提升。MIT科技评论以Python作为评估工具,对四款大型模型进行了幂函数计算的测试,以此衡量它们的代码编程能力。最终,讯飞星火V2.0在综合得分率为80%,远高于平均值71%的同时,在编程“简答”单项得分中也达到了82%,超过平均值68.25%。这充分展示了星火V2.0在代码生成和解释方面的卓越能力。

在讯飞星火V2.0发布会上,讯飞董事长刘庆峰引用了认知智能全国重点实验室的测试结果,这些结果是通过使用代码实用场景测试集iflyCT-py进行的。根据测试结果显示,星火V2.0的“代码生成”得分高于ChatGPT的3%,而“代码解释”得分低于ChatGPT的4%。尽管两款大模型的代码能力各有所长,但已经在实际应用中证明,星火的某些能力已经超越了ChatGPT。此外,MIT科技评论对星火V2.0的代码能力进行了测试,进一步证实了这一观点。

讯飞星火在“语言专项”、“逻辑思维”以及“综合知识”等领域均位居首位,充分展现了其“全能特长”的优势,因而被MIT科技评论誉为“最聪明的我国大模型”。然而,在这次的横向评价中,星火V2.0也有那么一些“遗憾”,主要是因为目前大模型多模态发展的局限性,星火V2.0的多模态能力尚未得到充分的展示。尽管如此,MIT科技评论在文章结尾部分“预告”了他们的下一步计划,即不断完善我国大模型的评测体系,并逐步引入对多模态能力的评估。这意味着我们有望在未来的“横评2.0版本”中,看到我国大模型在多模态领域的精彩表现。

以行业观察者的视角来看,MIT科技评论对我国大型AI模型的全面评测,无疑突显了我国在AIGC领域的核心地位。这不仅是对讯飞星火大模型的单一胜利,更是中国大型AI模型的集体荣耀。当前,通用认知大模型正在全球范围内迅速扩展,其影响力有望超越预期,对人类社会产生重大且深远的效应。

ChatGPT, 人工智能, 科大讯飞, 星火

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注