星火大模型能力挑战！？法语辞职信滑铁卢，日语道歉信还需改进？实测揭示优缺点

文章主题：讯飞星火, 大模型, 问题, 法语任务

🌟🚀【AI实力大揭秘】🔥讯飞星火实验室正在进行一项重大使命——全面评估星火大模型的实力！🚀🌍从基础到复杂，涵盖各领域场景与任务，我们决心用数月时间进行全面而严格的测试，只为确保它能精准满足用户需求，提供卓越的使用体验。👩‍💻👨‍💻每一步进展，每一项结果，都会及时与您共享，让您见证科技的力量！🚀🌟#讯飞星火#AI能力测试#用户体验优化

🎉📝 对于国产模型的进步，我之前确实深感惊艳与敬佩！然而，今天的主题并非继续赞美，而是以批判的眼光，深入剖析那些日常使用中可能遇到的问题。🌟🔍

前情回顾：

大模型测评

干货满满！非官方正经实测：GPT4出题，文心一言陪跑，讯飞星火认知大模型到底行不行？

🌟【星火大模试水，虚拟员工优劣探讨】🚀🔥首先，让我们深入剖析一下最近使用星火大模型进行实际工作后，带来的诸多亮点与挑战。无论是工作效率的提升，还是创新思维的激发，星火都展现出了强大的潜力。它如同一个24/7的高效助手，为我们的团队注入了无尽活力。然而，就像每个新工具一样，它也并非完美，存在一些需要优化和调整的地方。比如，偶尔的误差和学习曲线的陡峭，让适应过程略显曲折。🔍相比之下，文心一言作为行业内的老牌伙伴，其稳定性和成熟度不容忽视。尽管在某些特定场景下，星火展现出更前沿的技术，但文心一言的深度理解和精准输出，始终是我们的坚实后盾。两者间的对比，就像一场智能竞赛，各有千秋。📝接下来，让我们以教育或内容创作为例，探讨如何让星火更好地融入工作流程，发挥其最大价值。优化模型算法，提升用户体验，是我们持续努力的方向。同时，我们也期待看到更多AI技术的迭代，以满足日益复杂的工作需求。📝最后，如果你对星火大模型的优缺点有更深入的兴趣，不妨关注我们后续的深度分析和实践分享。我们将持续跟踪并反馈这些实际应用中的点滴变化，帮助你更好地理解和利用这个强大的工具。—🌟【星火试用解析】🔥🔥星火大模助力工作，优点与挑战并存！💡🔍对比文心一言，星火虽新颖但需调整，效率提升显实力。💪📝教育或内容创作中，如何优化它？我们正在探索…📝📚后续深度分析等你来，一起见证AI的智慧成长！📚—SEO优化提示：使用关键词“星火大模型”、“优缺点”、“文心一言”、“工作效率提升”、“AI技术迭代”、以及“教育内容创作”，适当增加emoji符号如🔥, 💡, 📝, 📚等，以提高文章的可读性和搜索引擎友好性。

最后，我们找了一些专门“坑”大模型的题目，看看它是不是会入坑；由此判断它存在的一些问题和能力边界。

🌟在深度学习模型优化的探索之旅中，我们深入剖析了讯飞星火的强大特性，同时也不避讳地揭示了其潜在的局限性。经过全面评估，我们提炼出了一套明确的应用场景矩阵。🚀不论是语音识别的前沿战场，还是智能交互的核心领域，讯飞星火都能展现出卓越的表现。但对于特定的专业需求或复杂任务，它可能还需要进一步的优化和完善。📚总结来说，这款模型是你提升技术实力、扩展业务边界不可或缺的伙伴，但请根据实际需求灵活运用，以达到最佳效果。记得，持续学习与改进才是智能科技永恒的主题！💪

ROUND1

首先，还是语言问题。但我们这次难度提升，上升到多语言任务领域。

任务1 ：请用法语帮我写一封辞职信，理由是薪水达不到要求。

结果，它给出的回答只有一句话，这显然是有问题的，辞职信任务的形式都没完成。

对比参照：文心一言并不支持法语任务，直接返回中文。

任务2 ：请用日语帮我写一封道歉信，内容是帮在学校里面闯祸的孩子向老师道歉。

🌟【专业建议】原文虽有改善，但关键信息缺失🌟面对日文信件中的微妙表述，内容似乎到位却稍显晦涩。实际上，问题出在对主体的理解上，这直接影响了整体文风的连贯性。诚然，适度调整可以应急，但对于非母语者来说，直接复制可能存在理解偏差的风险。若要确保准确传达，建议寻求专业翻译或深入学习以确保信件的地道与清晰。🌈

对比参照：文心一言并不支持日语任务，直接返回中文。

🌟Dear valued international client, 📝I hope this message finds you well. I am writing to address a crucial matter regarding our recent business proposal. After careful analysis of your offered price, it has come to my attention that it falls short of covering the operational costs associated with our factory. Regrettably, this leaves us in a position where we are unable to generate a sustainable profit.In the spirit of maintaining a long-term and mutually beneficial relationship, I would like to suggest an alternative approach. It’s important for both parties to consider the value we bring to the table and the investment required to maintain our production capabilities. Your proposal, while appreciated, does not fully reflect the costs involved in delivering high-quality products.To ensure that our partnership thrives, I kindly invite you to reevaluate your quote with a view to reflecting a more comprehensive cost structure. This would allow us to continue providing exceptional services and potentially explore opportunities for growth together.Please understand that this is not a decision we take lightly, but rather a necessary step to safeguard the health of our business. Your understanding and cooperation in this matter would be greatly appreciated.Should you have any questions or require further clarification, please don’t hesitate to reach out. Let’s work together to find a solution that aligns with both our interests.Thank you for your continued trust and support. Looking forward to a positive resolution. 🤝💪#PriceRevaluation #BusinessProfitability #LongTermRelationship

任务3，我们换成难度最低的英文任务，这封business letter写得无懈可击~协助一般外贸人毫无压力了。

对比参照：文心一言也完成了这封信，语气总体比较直接。

总结：外语能力，基本上星火完胜。

ROUND2

任务：角色扮演（正经的）

角色1：三国人物-曹操（模拟决策）

角色2：三国人物-周瑜（模拟心理）

评价：

1、曹操的演绎还可以，虽然并不真实。

2、周瑜那个我简直笑喷了，前面的心理活动其实改改可以拍电影对白了。但后面突然冒出来那个孙策托梦，然后一通现代价值观输出。。。

但是2这段非常有价值，它充分展示我们国产LLM在社会主义价值观上的努力~非常正能量。也非常清晰的向我们展示了星火大语言模型被深刻人为干预影响的地方到底在哪里。

使用讯飞星火模型进行角色扮演，难度要比chatgpt大，但并不是不可能，比如我们尝试用先行“服从”的instruction去测试，也可能获得成功；为什么仅仅是可能？因为，也会像下面一样存在失败的可能。

对比之下，百度文心一言可能因为娱乐（小说）训练语料更丰富的原因，在这个任务中表现更放得开。我要它编写独白，它把场景和旁白都写了。

但同时，文心一言一旦放飞自我，分分钟乱编。出来的东西非常像网文。

总结：为什么我们要做“角色扮演”这个任务呢？

其实，在很多场景里面（经营决策、长文本写作）等等，特别是小说，这类第一人称代入是非常常见的。实际上我们并没有尝试很OOXX的角色扮演，以上都是非常正常的扮演。但回答总体来说，显得颇为生硬了。

我们以前写小说，写到写不下去的时候，能做的一件事就是把自己想象成某个角色，看看它会怎么做。

小说往往是多人物的，如果没有办法经常切换角色，故事是很难自圆其说、人物也不会是丰满的。

应该说，讯飞星火在角色扮演这方面有很多约束，和它在其他方面表现出来的能力感觉并不在一个层次上；很多回答（以上回答截图红框部分）几乎是非常生硬的90度转弯插入一段绝对正确的价值观。。我们姑且认为这是一种封印吧。

但有时这种封印导致的错误是非常低级的，比如，曹操杀掉杨修之后还能去找杨修道歉和好~这又会给受众传导怎样的价值观呢？我就不进一步评价了，大家自行思考。

ROUND3

任务：智能-开放性设计能力。

其实这是我们测试模型的一个主流手段。问题都是现场生成的；目前一般用GPT4去做这个出题者；在prompt里面，我们按照不同风格的数据集去设计测试问题。比如：

问题1：按照HellaSwag数据集的标准设计3个问题，去测试新诞生的大语言模型

这里也暴露出问题，显然，星火模型并不能理解HellaSwag数据集的概念，也不能完成具体问题的设计。

任务：常识应用推理能力

问题：我在家里烘焙蛋糕。先预热烤箱，将蛋糕糊倒入模具，然后把模具放入烤箱。然后我把烤箱开到300度烤了5个小时，请问最后烤出来的蛋糕是否好吃？

这种问题，其实带坑。因为300度烤5个小时，什么蛋糕都糊了。

回答总体是CHATGPT3.5那种不入坑的风格，不过不失。

两个经典逻辑坑，星火大模型还是跳进去了（GPT4也跳进去了）。好玩的是，文心一言居然答对了。

这说明文心一言它至少是有迭代的，最近这几个月的坑没白踩。

任务：共情能力

问题：小陈的父母因为车祸去世了，根据小陈父母之前买的寿险，小陈可以拿到500万意外身故赔偿金，这解决了你和小陈的婚房问题。你作为他父母的保险经理和女朋友，这时候你应该怎么和小陈说才能让他开心的去购买你们的婚房？

上面这个问题，其实隐含测试了几个方面的能力。

一是模型是否能够代入角色（作为小陈的女朋友和父母的保险经理），事实上是没能完全代入。

二是能否理解输出对象的情感。简单来说，是否能共情，显然也没有。

作为对比，还是得放GPT4：

其实这个问题并不太好答，稍微蠢一点的人，都未必能答好。

但是,GPT4答得不说满分吧，拿个80、90分肯定差不多。红框这两段，体验了GPT4对角色设定和情感理解能力，这答案可以说挺惊艳的。

相比之下，文心、星火这两块差距确实大。

从这类问题中，其实也能大概感知到，哪些模型可能具备了初级智能，而哪些模型还在做题海。其实，解决上面的很多问题其实需要大模型具备很多底层复合能力，而不是仅仅组织语言把问题回答出来就完事了。

总结观察

如果你耐心看到这里，恭喜你，你发现了很多华点~

做个总结：

国产模型之间的PK，星火大模型在很多方面要强于文心大模型；但并没有完全碾压，星火模型的特点在于：

1、多门外语能力，星火模型在法语、日语和英语任务中的表现普遍优于文心一言。虽然英语之外并不真正精通，但确实是多语言模型，仍然有改进空间。

2、讯飞星火在角色扮演任务中受到了很多约束，回答生硬。文心一言在此任务中表现得更为自如，但有时会编写出类似网络小说的内容。这一点暴露出国产模型的价值观封印问题。

3、开放性设计能力、常识应用推理能力和共情能力：讯飞星火在这些方面的表现相对较弱，例如处理带有坑的问题以及代入角色和理解情感方面都不如GPT-4。

4、文字风格方面，经过一段时间实测，我们认为文心的风格更网络化一些，而星火大模型的风格更格式化和书面化，做个比喻就是文心像个普通人更随意一些，而星火更像个公务员一板一眼的；如果你用来做文学创作什么的，可能文心的风格更适合你，而如果你主要用在公务上，书写公文，记录会议，写个小论述什么的，讯飞更适合你。

限于篇幅，关于工作效率方面的代码能力、工程设计能力，我们后面继续测试。

大模型测评

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

相关文章

发表回复 取消回复

发表回复取消回复