讯飞星火认知大模型评测引领国产大模型走向“安全可控”时代

文章主题：多款大模型, 讯飞星火, 评测报告, 国产大模型

机构：多款大模型讯飞星火总分领先，实现国产大模型“安全可控”

最近，11月20日，新华社研究院中国企业发展研究中心发布了今年的第三份关于大型模型的评测报告——《人工智能大模型体验报告3.0》。在这份报告中，由科大讯飞开发的讯飞星火认知大模型以1775的最高分再次获得了评测冠军。值得一提的是，该模型已经成功从C端应用拓展到了B端市场，实现了国产大模型从“不可控”到“安全可控”的转变。

在本次的《报告》中，我们精心挑选了包括讯飞星火、360智脑、商汤商量在内的10款最新的国产主流大模型产品进行评估。在评估标准、主观与客观的融合以及指标与市场变动的适配性等方面，我们都对其进行了全面的升级。例如，我们在1000道题目中选择了400道题目进行实际的问答测试，这不仅是对大模型产品实际表现评测的提升，同时也增加了对于厂商技术实力及未来发展潜力的评估维度。

《报告》以“技术实力”与“发展潜力”作为两大坐标轴，对我国人工智能领域的重要企业——科大讯飞进行了深入分析。在“技术实力”方面，报告将平台的性能、安全性、模型的可解释性以及实时性能等重要指标进行了全面评估，并且进一步细化，涵盖了易用性等七个三级指标。科大的技术实力在各个方面都表现出色，这使得其在大模型领域具有强大的竞争力。对于“发展潜力”，报告从社会认可度、创新能力以及市场前景等多个角度进行了考察，并将其划分为三大二级指标以及五大三级指标。基于这些指标，报告得出了主流大模型的综合指数为3.0。在这个指数中，科大讯飞的星火等三家大模型在“技术实力”和“发展潜力”两个维度上均位于第一象限，显示出它们在我国人工智能市场中的领导地位。

自今年下半年起，我们可以明显观察到“百模大战”已经从纯粹的技术竞赛转变为应用层面的竞争。《报告》对当前市场上主流的大模型产品进行了全面评估，从基础能力、智商、情商以及工具提效等四个核心维度进行了深度测试。根据测试结果，科大讯飞的表现尤为抢眼，其得分为1775分，荣膺总冠军，并且在基础能力、智商以及工具提效这三个方面的指数都名列第一。这一结果充分展示了科大讯飞在大模型领域的强大实力和领先地位。

《报告》中的四大评测维度中，针对“工具提效指数”这一项，我们主要关注其在实际应用场景中的表现。具体来说，该指数在不同专业技能场景下都能在一定程度上提升问题分析和解决的水平，同时还能加速大纲罗列的过程。通过这样的测试，我们可以全面评估大模型的实用性和易用性，从而确保其能够在实际应用中发挥出最大的价值。

在最近的一份报告中，针对一个重要的医疗议题进行了深度探讨和测试：“猴痘的传播方式以及现有治疗手段是什么？”来自讯飞星火的团队凭借其卓越的分析能力和专业知识，精炼地提出了三种传播途径和相应的治疗方案，最终以472分的高分位列第一。这一成果充分展示了讯飞星火在医疗领域的研究实力和应对能力，也为我国相关研究和实践提供了有力的支持。

原内容主要表达了两个观点:一是大模型技术在C端场景应用中的落地越来越广泛;二是B端领域中仍有大量产业价值等待挖掘。基于这两个观点,我们可以重新组织语言,使表达更加准确、清晰、有说服力。《报告》指出,随着大模型技术的不断发展和成熟,其在C端场景中的应用越来越广泛。这种技术不仅能够提升个体用户的体验,还能够为整个行业带来更多的价值和赋能。同时,我们也应该关注B端领域,因为这里仍然存在着大量的产业价值等待我们去挖掘。只有深入发掘这些价值,才能够让大模型技术真正地为各行各业带来变革和进步。

《报告》指出，为了确保算力安全，讯飞与华为携手合作，共同利用各自的自研大模型训练平台，以及华为的基於昇腾AI基础软硬件的高算力AI芯片、高性能算子库、多卡高速互联和分布式存储等先进技术，成功构建了一个面向超大规模大模型的训练国产算力集群。这一举措不仅确保了我国人工智能大模型的算力安全，还保障了其发展自主权。此外，讯飞星火所形成的立体化“内容安全”保障机制，也为解决相关领域的问题提供了有力支持。

在实践成效方面，《报告》认为，“在讯飞保障内容，华为保障算力的前提下，讯飞联合华为推出了国产软硬件一体化的私有专属大模型解决方案‘星火一体机’，它就好像一个人工智能大模型的服务器，开箱就可以立即提供从底层算力、AI框架、训练算法、推理能力、应用成效等全栈AI能力，让企业可以在这个‘一体机’上，打造属于自己的专属私有化大模型”。

文/北京青年报记者温婧

编辑/樊宏伟返回搜狐，查看更多

责任编辑：

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章

发表回复 取消回复

发表回复取消回复