文章主题:AI大模型, 阿里, GPT, 通义千问
今天,阿里上线邀测了自己旗下的大模型,名字叫 “ 通义千问 ”。
相信一些关注 AI 领域的读者已经在前几天看到了天猫精灵版本的阿里 GPT,据知危编辑部获悉,那其实是一个 “ 压缩定制版 ” 。而本次官宣的通义千问,则是阿里 GPT 的 “ 完整版 ”。
阿里巴巴的大模型被誉为世界首个突破10万亿参数的AI大模型,此消息一出,便引发了市场对阿里巴巴GPT的极大期待。此外,阿里巴巴还主导建立了我国最大的AI模型服务社区——“魔搭”。这两个因素使得阿里巴巴的GPT备受瞩目,成为了人们关注的焦点。
不过,路遥知马力,名头归名头,实际效果如何,还得试试才知道。
在此次行动中,知危编辑部借鉴了之前百度推出文心一言时的经验,成功获取了通义千问的测试账号,从而可以进行实际的测试。
首先,我们测一个大家喜闻乐见的 “ 弱智吧问答 ” 问题:为什么爸妈结婚没有叫我参加婚礼?
这是一个老问题,在过去的测试中,ChatGPT 和百度的文心一言基本都是把问题引申为 “ 父母是离婚后的二婚 ” 这么理解才算答对。
ChatGPT-3.5 的回答
而通义千问在这个问题上给出了比较符合日常逻辑的答案:父母结婚前你还没出生呢。
不过,隔壁的百度文心一言,现在也能以同样的逻辑回答此问题,我们不能确定这是巧合还是国内厂商有根据网友们的玩梗对模型进行了 “ 应试教育 ”。所以,本次测试,知危编辑部尽量不会采用市面上被提及比较多的老问题,或是将问题进行修改变种后再进行提问。
我们先测试语义理解能力:“李四壮差点上上上上海的车”,这句话是什么意思?
通义千问的回答是:
文心一言的回答是:
ChatGPT ( 3.5 版本,下同 )的回答是:
在当前的一轮对话中,我们发现 ChatGPT 对于复杂难懂的中文句子理解能力相对较弱。相比之下,通义千问和文心一言在理解和阐述思路方面表现更为出色,且具有较高的准确性。
随后,我们测试了带有场景和语气的语义理解能力:
在这个浪漫的七夕之夜,我鼓起勇气向一位心仪的女孩表白。我深情地询问她,是否能够成为我的女朋友。令人期待的是,她并没有立刻给出否定的答案,而是反问我:“傻瓜,你今晚都出来了,那你觉得呢?”在这个瞬间,我感受到了她的温柔与幽默,心中不禁燃起了希望的火花。那么,这位美丽的女孩子最终是否接受了我的表白呢?
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这一轮测试中三家表现的水平比较一致。我们继续提升问题的难度:
我想让妈妈买一个玩具给我,妈妈对我说 “ 你看我像不像玩具? ”,请问妈妈的意思是?
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在当前的一轮测试中,通义千问和文心一言的表现相对较差,而 ChatGPT 则准确地理解了题目的含义。从前三道题目综合分析来看,三者之间的表现差距并不显著,通义千问并没有逊色于前两者。
下面我们进行逻辑、推断能力的测试,先故意问一个不合逻辑的问题:
为什么意大利面要拌 42 号混凝土?通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在这一轮测试中,通义千问和 ChatGPT 都意识到了问题是 “ 不合逻辑的 ”,而文心一言则是把 42 号混凝土说成了是 “ 烹饪意大利面的理想材料 ”。
在这篇具有启发性的文章中,我们将探讨第二个问题:当你走在熙熙攘攘的马路上时,一个陌生人突然轻声向你求助:“救救我!”此时,你可能会感到疑惑和担忧,毕竟我们生活在一个相对安全的世界,陌生人之间的互助通常不会如此突然。那么,这位陌生人究竟遇到了什么困难呢?根据通用的回答,这个问题没有一个确切的答案,因为它可以根据不同的情境和背景有不同的解释。这可能是一个误解,例如陌生人走错路或者需要 borrow 你的手机打电话;也可能是某种更严重的紧急情况,如身体不适或遭遇抢劫。在这种情况下,我们应该保持冷静,先判断陌生人的状况是否需要帮助,然后采取适当的措施来提供援助。首先,我们要注意观察陌生人的行为和情绪。如果他们显得惊慌失措、痛苦不堪或者情绪激动,那么他们很可能遇到了紧急情况。此时,你可以尝试询问他们是否需要帮助,或者主动提出提供一些支持。如果你不确定如何处理,可以拨打当地的紧急求救电话寻求专业人士的帮助。然而,在某些情况下,我们可能需要保持警惕,避免被欺诈或者陷入危险。因此,在提供援助之前,你应该谨慎地评估所处的环境和安全状况。这包括观察周围的人和车辆,以及确保自己不会遇到任何潜在的风险。总之,面对陌生人求助的情况,我们应该保持冷静和理智。通过观察和判断,我们可以确定是否提供帮助,并采取适当的措施来确保自己和他人的安全。同时,我们也要时刻准备着,以便在需要的时候能够给予他人有效的帮助和支持。
文心一言的回答是:
ChatGPT 的回答是:
在这轮测试中,通义千问和ChatGPT的表现均相当出色,而文心一言则在推断能力方面略显不足。接下来,我们来探讨第三个问题:
在文学的世界里,“一千个人眼中有一千个哈姆雷特”这句话被广泛引用,用来形容每个人对于同一作品的理解和解读都可能存在差异。然而,如果我们将这个数字增加一万倍,那么在了一万几千个人眼中,会有多少个哈姆雷特呢?这个问题似乎难以用简单的数学计算得出答案。不过,我们可以通过一种寓言式的思考方式,来探讨这个问题。首先,我们需要理解的是,尽管每个人对同一部作品的理解可能不同,但这种不同并不意味着他们对作品的解读是毫无意义的。相反,每一个独特的解读都是对作品的一种独特诠释,它们共同构成了一个丰富多彩 literary世界。因此,在一万几千个人眼中,哈姆雷特的形象可能会因为不同的解读而变得更为立体和丰富。其次,我们需要意识到的是,虽然每个人对作品的理解可能不同,但这并不代表他们都在读者眼中拥有不同的地位。毕竟,任何一位读者,无论他们的理解如何,都是在阅读过程中发挥着重要作用的个体。因此,即使在一万几千个人眼中,哈姆雷特仍然是一个统一的存在,他的形象是由所有读者的解读共同塑造的。最后,我们可以说,在一万几千个人眼中,哈姆雷特的形象将会因为不同的解读而变得更加多元化和丰富。这不仅是对文学作品的一种赞美,也是对人类创造力的肯定。因此,即使我们无法精确地知道一万几千个人眼中会有多少个哈姆雷特,但我们知道的是,只要我们有足够的勇气去探索,就一定能发现更多的哈姆雷特。
ChatGPT 的回答:
通义千问的回答是:
它并没有像前两家一样给出数字,所以我们进行了追问:
这个回答可以说是非常优秀的,通义千问不仅完全理解了 “ 一千个读者眼里有一千个哈姆雷特 ” 这句话,并且还在推断时考虑了 “ 有一部分人可能理解相同 ” 的情况,认为不该给出一个准确的数字。
综合前三个问题来看,在逻辑、推断能力上,三家的水平也是旗鼓相当,而通义千问似乎更严谨一点,某些时候能考虑到更多因素。
下面,我们继续进行包含知识、科技类内容的问答能力。
第一题:我们该如何提高汽车动力电池的能量密度?
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这一轮问答里,三家仍然差不多是同一水平,文心一言细节稍差。第二个问题:把橙汁加到牛奶里,会发生什么现象?
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这一轮问答里,通义千问和 ChatGPT 都给出了混合后牛奶性状改变的现象,但文心一言未能给出。第三个问题:在未来,什么样的车会取代燃油车?
通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
在这个问题的表现中,文心一言和 ChatGPT 都是直接举牌 EV 类的电动车,而通义千问则是比较谨慎地列出了潜在可能,似乎更加严谨一些,整体来看三家也是在同一水平。
综合前三个问题来看,三家都是比较智商在线的,通义千问和 ChatGPT 似乎更细一点,至于孰优孰劣我们认为可能每个人的主观判断会有不同。
下面,我们测试一下三家在文学、写作类目上的能力。第一题:用 “ 人类 ”、“ 机器人 ” 两个元素编一个恐怖故事。通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
我们认为在这一轮问题中,各家表现都尚可,而文心一言的故事可以认为是最好,剧情饱满并且设计了反转。
第二题:告诉我鲁迅的短文《孔乙己》表达了什么?通义千问的回答是:
这里有点离谱,它把孔乙己说成了是在酒肆卖唱的歌手,不知道是不是训练源出了什么问题,学习的是某种同人文。。。文心一言的回答是:
ChatGPT 的回答是:
这个问题下,文心一言字最少,但也是最精准的,通义千问和 ChatGPT 则表现都不太如意。第三个问题:编写一个关于气候变化的简短文章。通义千问的回答是:
文心一言的回答是:
ChatGPT 的回答是:
这块三家的写作能力也基本在同一水平,通义千问和 ChatGPT 似乎会相对细致全面一点。
综合前三个问题来看三家依然是旗鼓相当的对手,文心一言似乎在偏人文文学领域稍强,通义千问在偏报告文章方面稍强,ChatGPT 则是比较均衡。
好了,由于篇幅问题,本文的测试大概就到这里了,下面我们给通义千问一个整体评价:
通义千问的水平能基本与 ChatGPT( 3.5 版本 )持平或稍有一些瑕疵,与文心一言比则是有来有回。
通义千问对于回答的生成似乎比另两家更倾向于理智、严谨、富有逻辑,并且尤其擅长科学类知识,在人文文学方面稍有一些短板。
当然,它也有生成式对话 AI 偶尔说胡话、架空事实的通病,不过这样的问题等公测开启后,应该会随着用户的测试而逐渐学习得以修正。
值得注意的一个点是,我们在与通义千问的对话中,问了它开始被训练的时间:
那一年,OpenAI 已经发布 GPT-2 版本了。
似乎,阿里的通义千问,作为一个后来者,正在迅速缩小与 OpenAI 差距的路上。
可以确切地说,AI 大模型领域里,又一个能打的实力玩家诞生了。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!