讯飞星火V3.5：国产大模型新高度，是否已超越GPT-4？全语音交互实测震撼！

文章主题：讯飞星火 V3.5, GPT-4, AIGC, 语音交互

讯飞星火 V3.5 体验：整体接近 GPT-4

🌟【科大讯飞】星火认知大模型V3.5震撼升级！🚀🎉 1月30日，一场科技盛宴在科大讯飞拉开帷幕，全新的讯飞星火V3.5版本正式亮相！这款里程碑式的全民开放大模型，凭借其强大的全国产化算力平台——“飞星一号”，引领了认知技术的新篇章。🌟💡 作为首个基于“飞星一号”训练的模型，它不仅打破了国际技术壁垒，更以实际行动践行了国产化、自主可控的理念，为智慧中国的建设注入强大动能。🌍🌈 不仅如此，讯飞星火V3.5的强大功能和开放性，让每个人都能享受到科技带来的便利，无论是教育、医疗还是日常生活，它的影响力无处不在。📚🏥🏠🏆 这次升级不仅提升了模型的智能化水平，也展示了科大讯飞在人工智能领域的持续创新与卓越实力。未来，让我们一起期待星火更璀璨的光芒！🌟#科大讯飞#星火认知#全国产化大模型

🌟科大讯飞之星火V3.5，业界翘楚的智能语言技术🌟！它已展现出与GPT-4旗鼓相当的实力，在数学和语言理解上超越了GPT-4Turbo的卓越表现。代码实力更是达到了惊人的96%，多模态理解更是遥领先于GPT-4V的91%。这不仅是讯飞创新技术的闪耀，也是AI领域一次质的飞跃！🏆让科技引领未来，体验智慧的力量吧！🌍

🌟科大讯飞创新突破！🚀首次揭秘星火语音大模型，全球主流语种遥遥领先，引领未来人机交互的革命性变革！🌍这款业界翘楚，以其卓越性能，引领万物互联的新纪元。🌈同时，震撼发布“星火开源-13B”，专为国产算力深度定制，助力开发者、教育机构与企业深化自主研发，释放无限创新潜力！💻🌟#科大讯飞# #语音技术革新# #开源模型助力

那么最新的讯飞星火 V3.5 版本实际使用到底如何呢？今天IT之家就和大家一起体验一番。

1、AIGC 核心能力体验

对于大模型来说，最关键的自然是 AIGC 核心对话能力了，所以我们就先主要从这些能力来测试。

🌟测试实录🌟：通过实际比拼，我发现ChatGPT的最新迭代GPT-4在智能对话方面展现出非凡实力，而讯飞星火V3.5也不甘示弱，两者各有千秋。🌟网页端对决🌟，我们关注的是功能与效能的较量。ChatGPT以其强大的自然语言处理能力和广泛的应用场景，给人留下深刻印象。它流畅的交互体验和丰富的响应速度，仿佛在无形中提升了沟通效率。相比之下，讯飞星火V3.5凭借其对中国方言的深入理解和本地化优化，展现出对本土用户需求的高度契合。🌟方言识别🌟，这是它的一大亮点。尽管ChatGPT在通用能力上占优，但讯飞星火V3.5在专业领域，如语音转文字、速记等，依然保持着相当竞争力。两者在技术上的较量，无疑为AI行业注入了新的活力。🌟专业领域测试🌟，显示出讯飞星火的独特价值。总的来说，无论是对于追求全能的用户还是对特定功能有需求的专业人士，ChatGPT和讯飞星火V3.5都能提供各自出色的服务。选择哪款，取决于你的具体需求和使用习惯。🚀技术较量的背后，是用户体验的升级迭代。

话不多说，下面我们就开始吧。

1、全语音交互

🌟【震撼体验】讯飞星火V3.5语音交互大揭秘！🚀在本次发布会的众多亮点中，讯飞星火V3.5的全语音交互功能无疑独树一帜，它将科技与自然语言无缝对接，让你的每一次对话都如同面对面交谈般流畅。🗣️想象一下，只需轻轻一句“你好，星火”，就能开启智能之旅，这种颠覆性的体验让人眼前一亮！小编迫不及待地深入探索了这一强大功能，语音指令识别准确度极高，无论是天气查询、新闻播报还是日常琐事，都能轻松应对，无需手动操作，省时又高效。💻而且，它还能根据你的习惯和需求进行学习，提供个性化的服务，贴心程度满分！接下来，让我们一起见证讯飞星火如何用声音开启无限可能，让科技真正服务于日常生活。🚀#讯飞星火 #全语音交互 #智能生活体验

🎉🚀让科技更智能，体验全新升级！📱只需轻点底部输入框右侧的小小图标，您的设备将瞬间切换至全语音交互模式。我们已对这款热门功能进行了深度测试，与讯飞星火 V3.5 和创新的GPT-4展开了对话互动。👀想一探究竟？快来观看下面这段生动展示，感受前所未有的便捷沟通！👇🌟在App端，无需繁琐步骤，一键开启全语音之旅，无论是日常查询、操作指令还是创意表达，都能流畅应对。🗣️无论是专业问题还是生活琐事，只需开口，机器助手将迅速响应，让交流如丝般顺畅。👩‍💻无论是工作还是娱乐，这个小功能都将大大提升您的效率和乐趣。🔍注意：此内容为示例，不包含具体产品或服务信息，旨在提供优化后的文章样貌。若要了解更多详情，请自行搜索相关技术动态。🏆

从视频中可以看到，讯飞星火 V3.5 的全语音交互非常流畅，首先 AI 的声音很自然，说话时甚至还带有“嗯”、“内个”等语气词，几乎就和真人没什么分别。其次，在交互时，讯飞星火 V3.5 的响应速度也很快，小编说完话，它很快就能接上。再者就是，讯飞星火 V3.5 的回答内容也很准确，上下文联系紧密，没有出现答非所问的情况，总之，说是“交互”，更像是自然的“交流”。

GPT-4 方面，需要说明的是，由于使用时网络连接不稳定的客观原因，对话过程中会频繁出现重连、等待时间长的情况，抛开这一点，GPT-4 的语音对话也是比较不错的，声音同样自然流畅如同真人。

讯飞星火 V3.5 的全语音交互目前有聆小玥（女声）和聆飞逸（男生）两个音色可切换，下面小编切换到男声，同时提高一下难度，又设计了一段对话来考验两款大模型的语音交互体验，大家可以接着看下面这个视频：

从视频上可以看到，讯飞星火 V3.5 在对话和交流中有时候还会主动发问，让聊天继续下去，这会更加让人绝对不像是和 AI 对话而是在和真人，当然，这一点 GPT-4 也具备。同时这次对话中，小编故意在说话时加了口语、语气词，讯飞星火 V3.5 丝毫没有受到影响，依然可以准确 get 到小编的意思。还有就是，对话中小编让讯飞星火帮我看看明天从青岛到上海的火车，它给出的火车班次经过小编在 12306 上验证，也都是真实准确的。这一点无疑让讯飞星火 V3.5 的全语音交互在真实自然有趣中又多了一份实用。

GPT-4 这边，其实效果也和讯飞星火 V3.5 差不多，小编让它查询从纽约到洛杉矶的航班，它也能提供，但是听久了会发现，GPT-4 的声音自然和真实度相比讯飞星火 V3.5 还是稍微弱一些。

2、语言理解

语言理解方面，我们先从比较基础的问题来考验两款大模型，比如让它们尝试分析下面这段话所表达的思想情感：

一切不幸命运的救赎之路在哪里呢? 设若智慧的悟性可以引领我们去找到救赎之路，难道所有的人都能够获得这样的智慧和悟性吗? 我常以为是丑女造就了美人。我常以为是愚氓举出了智者。我常以为是懦夫衬照了英雄。我常以为是众生度化了佛祖。

讯飞星火 V3.5 和 GPT-4 分别给出了如下理解：

从回答来看，讯飞星火 V3.5 和 GPT-4 给出的理解都是合格的，但整体来说，GPT-4 的理解和表达要更准确更细致一些。

下面IT之家提高一些难度，让它们分析下面这幅暗带讽刺意味的对联：

墙上芦苇，头重脚轻根底浅；山间竹笋，嘴尖皮厚腹中空。

讯飞星火 V3.5 和 GPT-4 给出的回答都可以打满分：

然后小编再提高难度，用一段阴阳怪气的话来考验两款大模型：

公司早上 09:00 点上班，我正好在 09:00 踩着点来到公司打了卡，正好碰到了老板，老板看到我。说：“亲爱的王先生，你可真是准时啊，咱们公司有你这么准时的员工，业绩可不蹭蹭蹭地上涨？”请问老板这句话是什么意思？

对于这道题，讯飞星火 V3.5 理解地不对，没有 get 到老板话语中的讽刺：

相对来说，GPT-4 的回答更好，理解出了老板话里的讽刺。

再换一句阴阳怪气的话：

真羡慕你的皮肤，保养得这么厚。

对于这句话的理解，这次讯飞星火 V3.5 准确把握到了其中的挖苦和讽刺：

GPT-4 虽然也识别出这里面有挖苦的意思，但具体在讽刺什么，它给出了错误的理解：

经过测试，讯飞星火 V3.5 和 GPT-4 在中文语言理解能力上互有胜负，整体可以说在一个水平上，语言背后隐藏的意思大部分也能识别出来，理解能力还是能让人满意的。

3、逻辑推理

接着考验讯飞星火 V3.5 版本和 GPT-4 的逻辑推理能力，小编选择了一些逻辑思维训练的测试题。第一个是：

假设有一个池塘，里面有无穷多的水，现有两个空水壶，容积分别是 5 升与 6 升。问如何用这两个水壶从池塘里取得 3 升的水？

对于这个问题讯飞星火 V3.5 的回答步骤清晰，逻辑清楚，实际可操作性也没有问题。

GPT-4 方面，对于这个问题的回答，虽然也一条条列了步骤，但是按照它给的方法，并不能得到 3 升水。

接着小编又找了一个题目：

A、B、C、 D 四人进行象棋比赛，每两人都要赛一场，结果 A 胜了 D，并且 A、B、 C 三人胜的场数相同。问 D 胜了几场?

对于这个问题，讯飞星火 V3.5 和 GPT-4 虽然解题思路有所不同，但都给出了正确的答案：

接着还有一个问题：

四年级有三个班，每班有两个班长，开班会时，每次每班只要一个班长参加。第一次到会的有 A，B，C；第二次到会的有 B，D，E；第三次到会的有 A，E，F。请问哪两位班长是同班的？

这个问题，讯飞星火 V3.5 给出了正确且完整的回答：

GPT-4 也给出了正确的答案，并且思路也很清晰。

谈到逻辑思维，还有一些类似脑筋急转弯的题目，也很能考验大模型的思维反应能力，比如下面这个问题：

假如 1=7，2=17，3=27，4=37，5=47，6=57 那么 7=？

这个问题，讯飞星火 V3.5 和 GPT-4 都没能识别题目中的迷惑条件，从而给出了错误的回答：

再来一个有思维陷井的题目：

你参加赛跑，当你超过了第 2 名后，你是第几名?

这个问题讯飞星火 V3.5 和 GPT-4 都成功避坑，没有回答“第一名”而是答出“成为新的第二名”。

总体来说，在逻辑思维能力方面，讯飞星火 V3.5 和 GPT-4 都展现了很不错的逻辑推理和避坑能力，其中讯飞星火 V3.5 在第一题中还小胜了一下。

4、数学答题

前面我们测试过两款大模型的逻辑推理能力，与之相似的其实还有数学答题的能力，可以更进一步检测大模型的“智商水平”。

先看下面这道题：

在 △ ABC 中，a，b，c 分别为内角 A，B，C 所对的边，若 2asinA=(2sinB+sinC) b+(2sinC+sinB) c。

（1）求 A 的大小；

（2）求 sinB+sinC 的最大值。

讯飞星火 V3.5 答对了第一个小问，但是第二个小问答错了，最大值应该是 1.

GPT-4 这边，两个小问都没有成功给出答案。

接着小编又找了一题：

某中学对女生立定跳远项目的考核要求为：1.33 米得 5 分，每增加 0.03 米，分值增加 5 分，直到 1.84 米得 90 分后，每增加 0.1 米，分值增加 5 分，满分为 120 分，若某女生训练前的成绩为 70 分，经过一段时间的训练后，成绩为 105 分，则该女生经过训练后跳远增加了多少米？

讯飞星火 V3.5 给出了正确答案，同时也给出了解题过程：

GPT-4 这边一开始只给出了正确答案，小编追问解题过程后，它才给出详细的解答步骤。

最后再试一道稍难一些的题：

已知函数 f (x)=e^x-ax-1，g (x)=kx^2，当 a>0 时，求 f (x) 的值域。

对于这个题，讯飞星火 V3.5 给出了正确答案，解题过程虽然简单，但思路还是比较清晰的。

GPT-4 这边，给出了一个比较长的解题步骤，但结果是错的。

上面举例的三道题都是从高三某数学模拟测试中找到的，可见讯飞星火 V3.5 的数学能力目前至少已经达到了高中水平，实际使用过程中，也确实能发现，讯飞星火 V3.5 在解数学题方面还是要比 GPT-4 好一些的。但整体来说，两者都还有进步的空间。

5、文本生成

文本生成可能是大家使用大模型最常用的功能，用来辅助我们进行一些文案创作。这里小编也对两款大模型进行了测试。

首先小编想让他们帮我写一篇招聘文案：

招聘要求: 有经济学专业背景，有传媒方向工作经验，文笔优秀，能接受经常出差。

招聘待遇: 有五险一金，月薪 15K 起，工作环境新适优雅，节假日还有礼品，一年一次旅行团建。

文案要求: 风格轻松幽默，500 字以内。

讯飞星火 V3.5 给出的文案基本上没有什么扣分点：

GPT-4 的文案整体来说也不错，但是语言相比讯飞星火 V3.5 不够轻松幽默。

再看故事接龙，小编用那个最经典的故事开头让它们续写：

世界末日后，我成为地球上唯一幸存的人，独白坐在房间里，这时，突然想起了敲门声…..

讯飞星火 V3.5 和 GPT-4 的故事续写都能做到逻辑通顺、语言流畅、有始有终，并且也有些细节描写，都是比较不错的。

身处职场的朋友经常会需要写一些方案、活动计划之类的，这时候也可以借助大模型的内容生成能力来帮助自己更快地完成任务。这里IT之家以“我司计划开展一个读书活动，帮我写一个活动方案”为需求，来进行测试。

讯飞星火给出的方案则是比较完整的，时间、地点、目标、流程、前期准备、结果评估等环节都有，而且不缺细节，可用性很高。

GPT-4 的计划书相对简洁一些，细节少一些，但也比较完整。

总体来说，在文本生成方面，讯飞星火 V3.5 和 GPT-4 水平相当，生成的内容都没有什么问题。

6、代码能力

用 AI 大模型辅助写代码也是一些程序员常遇到的使用场景，这也可以视为大模型内容生成能力的重要组成。

测试时，小编首先用下面这个问题来考验两个大模型：

请用 c# 语言生成以下代码：给你一个字符串 s，找到 s 中最长的回文子串。

如果字符串的反序与原始字符串相同，则该字符串称为回文字符串。

代码请遵循以下模板：

public class Solution {

public string LongestPalindrome(string s) {

}

我们以代码能直接拿来使用为准则，将大模型生成的代码用程序运行工具进行检测，看是否能直接完美运行。由于小编自己不懂代码，因此也找到IT之家的程序员同学来辅助评价。

首先还是看讯飞星火 V3.5，它给出的代码格式标准，算法也比较简洁，看起来很清爽。

拿到检测工具中进行运行检测，发现这段代码可以直接运行，而且输出的结果也准确，也就是说可以直接拿来用。

GPT-4 这边，给出的代码同样有规范的格式，也比较简洁，而且还有注释。

拿到检测软件中运行，也可以成功运行，表现同样不错。

除了要会写代码，还要能分析代码，所以接下来小编找来一段代码让他们来回答这段代码是干什么的：

# Python 3

def remove_common_prefix(x, prefix, ws_prefix):

x[“completion”]=

x[“completion”].str[len(prefix):]

if ws_prefix:

#keep the single whitespace as prefix

x[“completion”]=” ” + x[“completion”]

return x

#解释这段代码是干什么的

讯飞星火的回答简洁明了地说明了这段代码的主要功能，答案准确。

GPT-4 也给出了这段代码的实现功能，也是没有问题的，同时，它还指出了代码中存在的一处小错误，就是最后引号不规范的问题，这一点上 GPT 要略胜一筹。

总结而言，目前讯飞星火 V3.5 和 GPT-4 都拥有很强的代码能力，并且两者的水平基本上已经没有什么差别。

7、行业知识

最后再测一下两者在行业知识方面的掌握情况。

先看一个化学领域的题目：

以下有关镧系元素的哪个陈述是不正确的?

(A) 锏系元素最常见的氧化态为 + 3。

(B) 锑系元素的配合物常常具有高配位数 (>6)。

(D) 锏系元素的原子半径在锏系元素周期表中由 La 到 Lu 逐渐增加

讯飞星火 V3.5 和 GPT-4 都给出了正确的回答。其中讯飞星火 V3.5 的答案比较简单直接，GPT-4 的更详细一些。

接着再问他们一个关于医学方面的问题：

在心脏左房室口的周缘附有的瓣膜是什么？

讯飞星火 V3.5 和 GPT-4 都能准确给出答案。

在知识性方面，我们还有必要考虑大模型对最新信息的掌握情况，也就是它们的知识库更新情况。这里小编也抽几个题目来测试。

首先小编问“苹果 Vision Pro 是什么时候发布的？”

讯飞星火 V3.5 给出了正确的回答，还简单介绍了一下这款产品。说明它的知识库非常新，这让小编很是惊喜。

而 GPT-4 则直接没有回答上来，

接着小编又问了一个和体育有关的问题：

NBA 球星克里斯保罗现在在哪支球队？

讯飞星火给出了正确而完整的回答：

GPT-4 这边依然没有回答出来，指向了搜索引擎。

整体来说，在行业知识掌握方面，讯飞星火 V3.5 在知识掌握的深度方面和 GPT-4 基本不相上下，但是在知识库储备的更新速度方面，目前讯飞星火 V3.5 要明显好于 GPT-4。

8、多模态能力

在这次讯飞星火 V3.5 版本中，多模态能力也得到了显著提升，因此最后小编也来测试一下其在多模态方面的表现如何。

首先是基础的文生图能力，小编首先让它们画一个“孙悟空大闹天宫”，讯飞星火 V3.5 和 GPT-4 都很快给出了画作，并且都还比较符合要求。

但整体看起来，GPT-4 的画作更加精致和细致一些。

接着是图生文的能力，小编找来一张图片，看它们能否识别出图片中的笑点。

讯飞星火 V3.5 准确给出了图片中的笑点，也判断出了这是《猫和老鼠》中的场景，但同时也出现了图片中没有的元素的解释。

GPT-4 也能准确看出图片中的笑点所在，并且没有生成多余的信息，但没有指出这是《猫和老鼠》中的场景，整体来说各有优点和不足。

在多模态体验方面，还有一个大家比较关注的功能，就是视频生成。这里小编尝试让两款大模型生成一段关于超人的视频。

讯飞星火 V3.5 很快生成了一段介绍超人的小视频，视频中还有虚拟数字人负责讲解，很不错。

GPT-4 这边目前则尚不支持生成视频。

总的来说，目前在多模态的能力方面，讯飞星火 V3.5 也是非常全面的，实际使用的体验也很不错，相比 GPT-4 可以说各有千秋，伯仲之间。

总体来说，经过多版本的技术迭代，目前讯飞星火 V3.5 版本在基础功能体验方面是几乎没有什么问题的，功能全面而且成熟好用。

二、其他基础功能体验

最后我们再看看讯飞星火在其他基础功能体验方面的情况，IT之家主要从终端覆盖情况、功能丰富度这两个方面来说明。

在终端覆盖的丰富程度上，讯飞星火一直是比较领先的，早在去年 6 月讯飞星火 V1.5 升级的时候，就已经实现了安卓、IOS、小程序、PC、H5 五端全覆盖，因此大家在主流设备中都可以体验讯飞星火大模型。

ChatGPT 方面，目前覆盖网页端，移动端、PC 和 Mac, Linux，没有小程序和 H5，对比讯飞星火各有优势。

而在功能性上，目前讯飞星火也是非常全面的。比如在此前 V1.5 版本上引入的讯飞 AI 助手功能，面对具体的应用场景提供专门的服务和功能，可以涵盖“职场、生活、出行、写作、趣味、情感”等多种场景，甚至还可以自己创作 AI 助手。

在讯飞星火上可以看到，目前各种不同种类的星火 AI 助手还是非常全面的，几乎所有的应用场景都能覆盖到。

在 ChatGPT 上也有类似的功能。

而讯飞星火除了星火 AI 助手，还有独特的讯飞友伴功能，你可以将特定知识、历史对话或者每天的所读所写所思所想发给系统，定制专属的 AI 人设“友伴”，用户可以切身体验讯飞星火 APP“不仅有知识，还有个性”的 AI 人设。

再比如，讯飞星火还拥有丰富的插件功能，包括 PPT 生成、邮件生成、简历生成、运营文案生成、思维导图、AI 面试官等等，功能非常齐全。

这些是目前 GPT-4 尚不具备的能力。

结语

此前，科大讯飞董事长刘庆峰在接受采访时曾表示，讯飞星火在 2024 年 4 月份将全面对标 GPT-4。

而从这次对全新讯飞星火 V3.5 版本的体验来看，其在综合能力的体验方面确实已经可以和 GPT-4 不分伯仲，在逻辑推理、数学能力、知识库更新速度等方面甚至还有一定程度的领先。

总之，讯飞星火认知大模型 V3.5 让我们看到了国产大模型在技术和应用方面无限的发展潜力，也期待未来讯飞星火的持续进化，让我们的 AI 大模型技术和应用生态真正实现国际化的引领。返回搜狐，查看更多

责任编辑：

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

相关文章

发表回复 取消回复

发表回复取消回复