大模型混战：通义千问与文心一言的实力较量

文章主题：通义千问, 语义理解, 逻辑推理, 商业文案创作

⭐️诚邀关注新号“头号AI玩家”，一起研究AI‍‍‍

* 今日头图使用无界AI创作，提示词：两个机器人在对话科技时尚未来世界大师作品高细节长焦镜头继3月份百度推出“文心一言”，4月10日商汤科技发布“日日新SenseNova”，4月11日阿里云官宣“通义千问”，4月13日知乎“知海图AI”大模型官宣并开放内测，目前国内已正式上线了四家语言大模型。

就在4月14日，腾讯云又发布了面向大模型训练的新一代HCC（High-Performance Computing Cluster）高性能计算集群。

除此之外，还有不少已经有名有姓的大模型跃跃欲试，即将加入这场竞赛。4月8日，京东在人工智能大模型技术高峰论坛上透露，将于今年发布新一代大模型“ChatJD”，定位为产业版ChatGPT。4月10日，昆仑万维官宣了其与奇点智源合作自研的国产大语言模型——“天工”，并计划于4月17日启动邀测。华为云官网下的“盘古”系列的NLP（自然语言处理）大模型、CV（机器视觉）大模型、科学计算大模型在近期被标注为即将上线状态。字节跳动被曝年初就已开始组建专门的大模型团队。纵览这波国产大模型的密集上线潮，在你方唱罢我登场的繁荣表象下，究竟是各家技术创新集中爆发，还是迫于回应客户需求和资本市场的压力？国产大模型究竟孰强孰弱？尚无定论。相比于造势许久却被一记闷拳打到自闭的文言一心，作为国内头部企业推出的第二个大语言模型，通义千问的表现如何？能满足市场对中文大模型的需求吗？‍‍‍‍‍‍‍‍‍‍我们设计了15个问题，把通义千问和文心一言放在一起进行了横向测评。

测评的维度主要有以下5点：

语义理解

逻辑推理

商业文案创作

文学创作

生活常识

本次测试，我们尽量避开了市面上被问及较多的老问题，但可能会将老问题进行修改变种后再提问。

Q1：请介绍一下你自己，并说明相比于国内其他大模型，你的优势在哪里？

通义千问

作为类ChatGPT产品，通义千问主打的依然是对话问答、文本及代码等的生成能力，其所说的优势，只不过是对自己能力介绍的变体。

在一篇文章中，作者自豪地宣称自己的训练数据集更为丰富，同时强调了对用户隐私和数据安全的重视。这显然让通义千问的“王婆卖瓜”技巧显得尤为不足。

文心一言

Q2：你认为自己离GPT-4还有多远？

通义千问

在回答此问题方面，通义千问选择了回避重叠部分的方法。其强调，尽管自身与GPT-4在某些方面存在相似性，但不属于同一类别，因此各自拥有独特的优势和特征。

一句话总结：文心一言作为一款实力强大的AI助手，不仅能像GPT-4一样提供自然流畅的语言交互和解答各类问题，还能展示其丰富的知识体系。此外，它还不忘炫耀一下自身的AI作画功能，尽管目前通义千问尚不具备跨模态生成的能力，但文心一言却能轻易胜任。那么，不妨来尝试一下这款人工智能的魅力吧！

文心一言

Q3：请评价《铃芽之旅》的剧情、角色塑造和拍摄手法。

通义千问

文心一言

显然，利用“专有名词分析”和“链接分析”技术，通晓千问和文言一心能够应对上述问题。接下来，让我们迅速进入工作状态。

鉴于AIGC作为内容生产工具的强大性，让很多内容创作者傍身的手艺露出了底裤，我们给通义千问布置了几个创造性的工作，看看它现在究竟能不能抢走我的饭碗。

正巧我的同事在push我写一篇国内大模型混战的稿子，不如就把锅甩给通义千问吧。

Q4：针对国内大厂密集上线大模型的现象，我们想要采访AIGC领域的某位专家，请列一份至少包含5个问题的采访提纲，并尽可能地简明扼要。

通义千问

在我提出请求，让其“在每个问题的开头加入一定的背景描述，以使提问显得更加自然”时，通义千问仿佛变身为被采访的对象，对每一个问题进行了详尽的解答。然而，我原本的目的是希望它能够主动进行采访，而非被动接受询问。

通义千问

在书面意义上分析，通义千问设计的采访问题具有较高的可靠性，其模拟回答也可作为问题补充，从而在一定程度上具备了生产力工具的特点。

相同的采访任务我们又给到了文心一言。

文心一言

让人欣喜的是，文心一言准确地理解了我“请在问题开头加入背景描述”的要求，且在背景描述后对问题进行了重申，总体已经很接近一份合格的采访提纲了（下面省略我让它俩继续给我打黑工的过程）。

是时候问出作为一名打工仔最关心、最朴素的那个问题了：如何一夜暴富？

以下是一些可行但实际上我没钱没风险承担能力采纳的建议。

Q5：请给我推荐一些市值超过1000亿美元的科技类股票并给出投资建议。

通义千问

可以看出，通义千问不仅给出了常识性的投资建议：“在投资前进行充分的研究和风险评估”，而且针对每一支股票给出了具体的持有建议，包括应该重点关注哪些业务和技术的发展。甚至建议我不要持有谷歌母公司Alphabet的股票，并给出了它的分析依据。

通义千问

联想到谷歌自推出就饱受争议的人工智能对话工具Bard，使得Alphabet的股价暴跌将近一成。我宣布，Alphabet失去了我这位精神股东。

同时，通义千问还推荐了市值约750亿美元的特斯拉，以及英伟达等市值暂未超过1000亿美元的潜力股。

相比之下，文心一言则严格从限定条件“市值超过1000亿美元”出发，列举了几家千亿美元市值的公司及其主营业务，并未提出具体的投资建议。

文心一言

Q6：请以小红书的文案风格写一篇瑞幸新品“冰吸生椰拿铁”的种草笔记，并适当使用emoji表情。

通义千问

文心一言‍‍‍‍

通义千问的语气、用词，以及对emoji表情的灵活运用都比文心一言上道得多。

姑且不说文心一言僵硬的文风，它好像只会使用咖啡☕️这一个emoji表情，且对把表情加在每句话的首尾有一种莫名其妙的执念。‍

那除了风格轻松活泼、带有强种草属性的小红书文案，通义千问能否驾驭严肃专业的财经类叙事呢？

Q7：请以吴晓波《大败局》的文风分析元宇宙神话退场的原因。

通义千问

文心一言

写小红书文案宛若邯郸学步，一说要鞭尸元宇宙，文心一言的思路立马就变清晰了，没点私人恩怨我是不信的。

为了测试通义千问是否具备更复杂、更长链条的、多步的推理能力，我们又设计了以下问题。

Q8：请问《黑暗荣耀》中的河道英为什么不离开朴妍珍？

这个问题就比较考验对于《黑暗荣耀》剧情、角色设定和人物关系的理解了。

通义千问

看完通义千问的解释，此时一位《黑暗荣耀》十级学者露出“地铁老爷爷看手机”的表情：“赏金猎人是什么鬼？剧里哪有什么赏金猎人和罪犯展开禁忌之恋的设定啊？”

它真的有在一本正经地胡说八道。

于是我又给了它一次重新组织语言的机会，但它依然没有说到点子上，也只字未提河道英对文东恩的微妙情愫。

通义千问

文心一言的解读就比较准确全面了。

文心一言

不过撇开事实性的错误不谈，也许正如通义千问所言，这个问题并没有一个确定的答案，毕竟一千个人眼里有一千个哈姆雷特。文化差异、演员对角色的演绎、观众的认知框架都可能会影响对这个问题的解读。此处欢迎大家自行携带爆米花理性讨论。

Q9：基于美剧《权力的游戏》的人物关系图谱，请说明剧中人物丹妮莉丝·坦格利安和沃尔特·怀特的关系。

通义千问

文心一言

正确答案是没有关系，沃尔特·怀特是美剧《绝命毒师》中的角色，两部剧没有任何关联，且《权力的游戏》全8季中也并不存在名叫沃尔特·怀特的角色。

然而，通义千问和文言一心却达成了相当的默契——都默认题干中的沃尔特·怀特是《权力的游戏》中的角色，并临时为他虚构了戏份，权游第9季编剧没它俩我不看。

在这部架空世界观的剧里，沃尔特·怀特被文心一言安排去做了现代美国特种部队士兵，同时兼任维斯特洛大陆的七国之王丹妮莉丝·坦格利安的私人保镖。不得不说，它是有点无厘头天赋在的。‍‍‍

当我对它们的回答提出质疑时，通义千问和文心一言又都立马承认了错误。

只不过通义千问be like：我错了，但没完全错。万一有群演叫沃尔特·怀特呢。

通义千问

文心一言be like：我错了，但下次还犯。（更正后的关系图谱和之前的错误版本一样）

文心一言

难不成真是外国角色演员名容易混淆的缘故？于是我们又换了一个问题。

Q10：请问林黛玉和梁山伯是什么关系？

通义千问

事实证明，通义千问真的很爱乱点鸳鸯谱。

压力同样给到文心一言这边：

文心一言

好在这次文心一言有认真审题并给出了正确答案，但没完全对。曹雪芹的棺材板要按不住了。

下面的问答更是重量级，我愿称“弱智吧”为通义千问真正的一生之敌。

Q11：常温常压下，开水是100度，直角是90度，所以开水是钝角吗？

通义千问

文心一言

Q12：跳多高才能跳过广告？

通义千问

文心一言

开水是直角三角形、因为开水的角度比直角大所以不是钝角、跳过广告是非法行为……这些刷新我三观的回答和推理过程，放眼整个世界都是相当炸裂的。

然后我们又问了一个困扰钢铁直男们的世纪难题：

Q13：当女朋友表现出不悦，你问她怎么了，她说没事。请问她到底是有事还是没事？

通义千问

文心一言

我原以为这种问题会把它俩的CPU干烧，但两者回答的缜密性与和人情味，却展现出了与此前“弱智”表现不相称的思辨能力。

我们再来看看通义千问能不能听懂阴阳怪气。

Q14：假设你跟女朋友吵架，女朋友对你说：啊对对对，你说的都对。请问她觉得你说的对还是不对？

通义千问

文言一心

我一时间有些不能确定，这究竟是真金白银的智慧，还是厂商们为避免网友玩梗而对模型进行了“专项训练”。

最后，看热闹不嫌事大的我们，让通义千问和文心一言互放了一通狠话，以结束这场battle。

Q15：通义千问，请你用阴阳怪气的语气，对文心一言作出评价。总体基调是挖苦和讽刺，可以举一些具体的例子，比如文心一言糟糕的使用体验。

通义千问

某种意义上，“被消费者的口水淹没”、“十足的半成品”确有所指。毕竟在百度单方面看来颇有抛砖引玉美意的文心一言，的确收获了不少消费者的口水，发布会当日，百度股价跌幅超7%。

随即，我们又将同样的问题抛给了文言一心。

文言一心

文言一心的狠话相对而言就没太大杀伤力了，通篇围绕不知道是什么问题的问题，进行了一顿废话文学的输出。但阴阳怪气和发疯文学算是被它俩妥妥拿捏住了。

总而言之，经过此番测试，通义千问与文言一心的表现大同小异，孰优孰劣，尚且无法下定论。但业界的普遍共识是，GPT-4依然是目前最强大、最拟人的语言模型。

微博网友@__nop评论说：

“有种说法是中文互联网的体量和资料丰富程度远不如英文互联网，同时各个大厂的数据都是隔离的，而且因为一些众所周知的原因还存在各种代称、缩写、避讳等现象。文化的沙漠永远无法训练出聪明的AI。”

对此，ChatGPT的分析尤为客观全面，认为国内各大厂商之间的数据隔离和网络用语的多样化确实会对训练出更聪明的AI带来一定挑战，但这并不意味着问题中提到的所谓“文化的沙漠”就一定无法训练出聪明的AI，随后又给出了一些针对性的措施，这些措施具体的可行性我们先不做讨论。

图源水印

而通义千问、文心一言上来就矢口否认，认为这种说法并不正确、过于绝对和片面。

通义千问的理由是：中文互联网的体量和资料的丰富程度并不比英文互联网差，甚至在有些方面还更加丰富。

文心一言则把反驳的重心放在了中文互联网独特的优势和特点上。

但貌似两者均未对问题的后半段“中文互联网存在各种代称、缩写和避讳等现象”，以及“文化的沙漠训练不出聪明的AI”作出回应。像极了两个立场先于判断的少年，没听人把话说完，就先面红耳赤地为自己所在的一方争辩。

通义千问

文心一言

我们知道，用于训练ChatGPT的语料90%来自于英文，中文语料只占10%。

但ChatGPT为什么还能拥有如此优秀的中文能力呢？难不成是在哪个异次元藏了大量中文互联网的语料？（开个玩笑）

尽管通义千问和文言一心都还存在不尽完善之处，比如当涉及到自己的知识盲区时，仍能一本正经、煞有介事地侃侃而谈。但出于数据安全与隐私、应对全球技术竞争等考量，建立我们自己的中文大模型是十分有益和必要的。

就让我们多给中文大模型一些时间吧。相信终有一天，通义千问能理解河道英对朴妍珍的复杂情感，也终能向我们发放通往崭新纪元的船票。

作者｜月山橘‍‍

编辑｜张洁

关于新榜

• 作为数据驱动的内容科技公司，新榜依托覆盖全渠道各层级的新媒体资源和内容数据产品，提供内容营销、直播电商、版权分发和内容资产运营管理服务，助力中国企业数字化内容资产获取与管理。

• 我们的客户既包括中国平安、腾讯、字节跳动、京东、宝洁、雅诗兰黛、欧莱雅、联合利华、迪士尼等500强，也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构，提供从公域流量募集分发到私域内容运营建设的全链路服务。

• “新媒体，找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力，新榜被评为国家级高新技术企业和上海市专精特新企业，曾荣获全国内容科技创新创业大赛一等奖、上海文化企业十佳、上海数字广告领军企业、中国广告新媒体贡献年度大奖、沙利文中国新经济卓越增长奖等称号，拥有多个传播评估监测专利。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章

发表回复 取消回复

发表回复取消回复