讯飞星火认知大模型：一场测试之旅

文章主题：讯飞星火认知大模型, 内测, 跨领域知识, 语言理解

4月24日，科大讯飞在其官方社交媒体平台上正式推出了讯飞星火认知大模型，然而，至我国时间4月26为止，关于此模型的具体信息仍相对有限。尽管如此，作为一家技术驱动的创新企业，科大的这一举动仍然引发了行业内的广泛关注。事实上，据DoNews报道，我们已成功申请并获得了这款认知大模型的内测资格，并在过去的段时间里对其进行了全面而深入的测试。

在深入了解科大讯飞的产品后，我们发现其星火认知大模型具备卓越的跨学科知识与语言解析能力。该模型能基于自然对话模式来理解和执行各种任务，仅需一个指令，便能明白你的需求，回答你的问题，创造你需要的东西，解决你遇到的难题，以及学习你教授的内容。因此，这个智能助手 truly 贴合了我们的需求。

具体体验如何，我们来亲自体验一下吧。

以下是部分测试的截图：

首先，提出简单的问题：可以做一下自我介绍吗？

在首次操作中，内容的快速生成还是出乎意料的。

一、创作能力

对于文字工作者而言，最重要的是不断提升自身的创作能力和获取数据的实时性。下面，让我们通过一篇关于奇幻小说《长月烬明》的影评，来探讨其写作技巧。

在观察讯飞星火认知大模型的回复时，我们可以发现它仅仅是在套用一种格式化的模板，而在对主要角色的描述上出现了错误。因此，当我们点击“重新生成”按钮时，我们的期望是讯飞星火认知大模型能够再次给出回答，以便我们评估其结果是否达到我们的满意度。

从结果来看，仍然不尽如人意。先抛开剧情的套话描述，其演员团队依旧是错误的。

再来一个问题：以“讯飞星火”做一首藏头诗.

在分析前两次生成的内容之后，我们可以得出一个初步结论：讯飞星火认知大模型的性能具有一定的潜力，然而其完善程度仍有待提高，目前其完成度仅约为50%。

对外的内容出现偏差，可以理解，那对内呢？来问一下，科大讯飞2022年的营收情况。

这则回复出人意料地出现在4月20日晚，当时科大讯飞已经公布了财务报表，而不是在未来某个时间点。另外，由于讯飞星火认知大模型是一款语言模型，它并未生成过模板化的内容。

二、逻辑能力

把两杯50度的水融在一起后，水的温度是多少？

1+1在什么情况下等于3？

如果猫会爬树，那么狗也会。

针对逻辑性问题，笔者也尝试了重新生成，来看看有没有不同的答案，但多次生成的回复是一样的。

三、编程能力

先来一个简单的编程问题“从1加到100等于多少，请用JAVA语言编程，并得出结论。”

“编写一个JAVA程序，用if-else语言判断2023年是否为闰年。”

对于其编程能力，笔者也问了两位JAVA程序员，他们都表示其编程能力还是有的。但对于大型项目还说，具体编程效果如何，可能还得看能够给出具体的描述。

四、图文生成能力

前有百度文心一言，后有通义千问等等大模型。图文生成能力也是备受关注的一点。

可以看到，讯飞星火认知大模型定位于语言模型目前无法生成图片。

五、交互能力

成语接龙是最直接的交互形式，来玩一局。

对于出现“及时雨”回复时，多次让其重新生成，答案内容并未改变。

整体来看，科大讯飞这次推出的讯飞星火认知大模型表现还比较初级，无论是语义理解，持续对话、编程能力，还是数理推理能力等，与真正的“对话式AI”还有距离。

最后再来一个问题，“目前有几个和你类似的认知智能模型？”

通过回复可以看到，当前类似的认知智能模型已经有很多了，讯飞星火认知大模型的将呈现怎样独有的优势呢？还需要再等十余天才能揭晓。

本文源自iDoNews

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

对话文心一言星火生成通义千问

相关文章

发表回复 取消回复

发表回复取消回复