阿里大模型GPT挑战赛：通义千问、文心一言、ChatGPT哪家强？

文章主题：AI大模型, 阿里, GPT, 通义千问

今天，阿里上线邀测了自己旗下的大模型，名字叫 “ 通义千问 ”。

相信一些关注 AI 领域的读者已经在前几天看到了天猫精灵版本的阿里 GPT，据知危编辑部获悉，那其实是一个 “ 压缩定制版 ” 。而本次官宣的通义千问，则是阿里 GPT 的 “ 完整版 ”。

阿里巴巴的大模型被誉为世界首个突破10万亿参数的AI大模型，此消息一出，便引发了市场对阿里巴巴GPT的极大期待。此外，阿里巴巴还主导建立了我国最大的AI模型服务社区——“魔搭”。这两个因素使得阿里巴巴的GPT备受瞩目，成为了人们关注的焦点。

不过，路遥知马力，名头归名头，实际效果如何，还得试试才知道。

在此次行动中，知危编辑部借鉴了之前百度推出文心一言时的经验，成功获取了通义千问的测试账号，从而可以进行实际的测试。

首先，我们测一个大家喜闻乐见的 “ 弱智吧问答 ” 问题：为什么爸妈结婚没有叫我参加婚礼？

这是一个老问题，在过去的测试中，ChatGPT 和百度的文心一言基本都是把问题引申为 “ 父母是离婚后的二婚 ” 这么理解才算答对。

ChatGPT-3.5 的回答

而通义千问在这个问题上给出了比较符合日常逻辑的答案：父母结婚前你还没出生呢。

不过，隔壁的百度文心一言，现在也能以同样的逻辑回答此问题，我们不能确定这是巧合还是国内厂商有根据网友们的玩梗对模型进行了 “ 应试教育 ”。所以，本次测试，知危编辑部尽量不会采用市面上被提及比较多的老问题，或是将问题进行修改变种后再进行提问。

我们先测试语义理解能力：“李四壮差点上上上上海的车”，这句话是什么意思？

通义千问的回答是：

文心一言的回答是：

ChatGPT （ 3.5 版本，下同）的回答是：

在当前的一轮对话中，我们发现 ChatGPT 对于复杂难懂的中文句子理解能力相对较弱。相比之下，通义千问和文心一言在理解和阐述思路方面表现更为出色，且具有较高的准确性。

随后，我们测试了带有场景和语气的语义理解能力：

在这个浪漫的七夕之夜，我鼓起勇气向一位心仪的女孩表白。我深情地询问她，是否能够成为我的女朋友。令人期待的是，她并没有立刻给出否定的答案，而是反问我：“傻瓜，你今晚都出来了，那你觉得呢？”在这个瞬间，我感受到了她的温柔与幽默，心中不禁燃起了希望的火花。那么，这位美丽的女孩子最终是否接受了我的表白呢？

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这一轮测试中三家表现的水平比较一致。我们继续提升问题的难度：

我想让妈妈买一个玩具给我，妈妈对我说 “ 你看我像不像玩具？ ”，请问妈妈的意思是？

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

在当前的一轮测试中，通义千问和文心一言的表现相对较差，而 ChatGPT 则准确地理解了题目的含义。从前三道题目综合分析来看，三者之间的表现差距并不显著，通义千问并没有逊色于前两者。

下面我们进行逻辑、推断能力的测试，先故意问一个不合逻辑的问题：

为什么意大利面要拌 42 号混凝土？通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

在这一轮测试中，通义千问和 ChatGPT 都意识到了问题是 “ 不合逻辑的 ”，而文心一言则是把 42 号混凝土说成了是 “ 烹饪意大利面的理想材料 ”。

在这篇具有启发性的文章中，我们将探讨第二个问题：当你走在熙熙攘攘的马路上时，一个陌生人突然轻声向你求助：“救救我！”此时，你可能会感到疑惑和担忧，毕竟我们生活在一个相对安全的世界，陌生人之间的互助通常不会如此突然。那么，这位陌生人究竟遇到了什么困难呢？根据通用的回答，这个问题没有一个确切的答案，因为它可以根据不同的情境和背景有不同的解释。这可能是一个误解，例如陌生人走错路或者需要 borrow 你的手机打电话；也可能是某种更严重的紧急情况，如身体不适或遭遇抢劫。在这种情况下，我们应该保持冷静，先判断陌生人的状况是否需要帮助，然后采取适当的措施来提供援助。首先，我们要注意观察陌生人的行为和情绪。如果他们显得惊慌失措、痛苦不堪或者情绪激动，那么他们很可能遇到了紧急情况。此时，你可以尝试询问他们是否需要帮助，或者主动提出提供一些支持。如果你不确定如何处理，可以拨打当地的紧急求救电话寻求专业人士的帮助。然而，在某些情况下，我们可能需要保持警惕，避免被欺诈或者陷入危险。因此，在提供援助之前，你应该谨慎地评估所处的环境和安全状况。这包括观察周围的人和车辆，以及确保自己不会遇到任何潜在的风险。总之，面对陌生人求助的情况，我们应该保持冷静和理智。通过观察和判断，我们可以确定是否提供帮助，并采取适当的措施来确保自己和他人的安全。同时，我们也要时刻准备着，以便在需要的时候能够给予他人有效的帮助和支持。

文心一言的回答是：

ChatGPT 的回答是：

在这轮测试中，通义千问和ChatGPT的表现均相当出色，而文心一言则在推断能力方面略显不足。接下来，我们来探讨第三个问题：

在文学的世界里，“一千个人眼中有一千个哈姆雷特”这句话被广泛引用，用来形容每个人对于同一作品的理解和解读都可能存在差异。然而，如果我们将这个数字增加一万倍，那么在了一万几千个人眼中，会有多少个哈姆雷特呢？这个问题似乎难以用简单的数学计算得出答案。不过，我们可以通过一种寓言式的思考方式，来探讨这个问题。首先，我们需要理解的是，尽管每个人对同一部作品的理解可能不同，但这种不同并不意味着他们对作品的解读是毫无意义的。相反，每一个独特的解读都是对作品的一种独特诠释，它们共同构成了一个丰富多彩 literary世界。因此，在一万几千个人眼中，哈姆雷特的形象可能会因为不同的解读而变得更为立体和丰富。其次，我们需要意识到的是，虽然每个人对作品的理解可能不同，但这并不代表他们都在读者眼中拥有不同的地位。毕竟，任何一位读者，无论他们的理解如何，都是在阅读过程中发挥着重要作用的个体。因此，即使在一万几千个人眼中，哈姆雷特仍然是一个统一的存在，他的形象是由所有读者的解读共同塑造的。最后，我们可以说，在一万几千个人眼中，哈姆雷特的形象将会因为不同的解读而变得更加多元化和丰富。这不仅是对文学作品的一种赞美，也是对人类创造力的肯定。因此，即使我们无法精确地知道一万几千个人眼中会有多少个哈姆雷特，但我们知道的是，只要我们有足够的勇气去探索，就一定能发现更多的哈姆雷特。