新必应搜索引擎：ChatGPT技术的accuracy问题

文章主题：新一代 AI 驱动搜索引擎, 微软, ChatGPT, 事实性错误

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→FightingCV交流群

在近期与谷歌Bard加强版的搜索引擎的竞争中，微软基于ChatGPT的全新必应似乎表现出了压倒性的优势。然而，尽管如此，我们不能不对其搜索结果的完美性提出质疑。一些来自新加坡南洋理工大学和新加坡技术设计大学的自然语言处理（NLP）研究人员深入研究了微软发布会的搜索演示细节，并指出其中存在许多错误。

在2月8日的美东时间晚上八点半，谷歌公司在巴黎举办了盛大的发布会。前一天，微软公司已经正式推出了新一代AI驱动搜索引擎New Bing，该搜索引擎将ChatGPT技术生成的模型与Bing搜索引擎进行了无缝集成。微软副总裁Yusuf Mehdi进行了一场精彩的演示，使得当日微软的市值激增了800亿美元。即使在我国OpenAI尚未开放注册的情况下，Yusuf演示的生成模型如何提升Bing搜索引擎和Edge浏览器体验的视频在朋友圈和微信群中广泛传播，让众人对搜索引擎巨头谷歌的反应充满期待。

在谷歌的发布会上，众人翘首以待传说中的Bard亮相，这位被寄予厚望的大语言模型引发了广泛的期待。然而，在发布会现场，关于Bard的信息却显得格外有限。因此，人们转而将目光投向了谷歌在推特上发布的Bard视频，期望从中一探究竟。仔细观察之后，令人惊讶地发现Bard在回答问题时出现了事实性错误。

当被问到“有关詹姆斯韦伯望远镜的最新发现，能否告诉我适合九岁孩子了解的一些事情？”时，Bard的回答是：“第一张系外行星照片是由詹姆斯韦伯望远镜拍摄的。”然而，事实上这张照片是由欧洲南方天文台的甚大望远镜在2004年拍摄的，那时离詹姆斯韦伯望远镜升空还有18年的时间。这个错误成为了谷歌当日股价下跌的导火索。

图 1 Bard 关于詹姆斯韦伯望远镜演示截图

在巴黎发布的活动现场，虽然Bard的展示时间仅约为4分钟，但其提供的关于星座最佳观测时间的回答仍存在显著的现实误差。如图所示，Bard的回答中强调猎户座的最佳观测时间为每年的十一月到二月。

图 2 Bard 关于星系观测时间演示截图

猎户座的最佳观测时间因信息来源的不同而有所差异，然而，所有可靠的信息都指出了最佳观测时段，即从每年的1月开始。据教育科技网站BYJUS所提供的数据，最佳观测时间为一月至三月[1]；而维基百科则给出的建议是最佳观测时段在一月至四月[2]。

图 3 BYJU‘S 关于猎户座最佳观测时间的解答

由于 Bard 发布会相较于 New Bing 发布会的落差，以及被揪出了事实性错误，当天谷歌市值暴跌近 1000 亿美元，Bard 也因此被戏称为史上最贵发布会。我们不禁好奇，在 New Bing 看似完美的发布会中，是不是也藏着事实性的错误呢？

New Bing 的事实性错误

在我们的研究中，我们注意到New Bing生成的内容存在大量的事实性错误，涵盖了诸如名人身份、财务报表数据以及夜店的营业时间等方面的信息。这些错误不仅可能导致用户产生误导，也可能给相关企业带来不必要的损失。

生成模型的事实性错误分类

生成模型如 GPT 系列（包括 ChatGPT、InstructGPT 等）和 T5 的代表，其事实性错误主要可分为两大类。

生成内容与引用内容冲突。大语言模型在内容生成过程中随着序列增长，容易出现脱离引用内容，造成增加、删减或篡改原文的现象。

生成的内容没有事实依据。这类错误通俗来说就是一本正经得胡说八道。没有事实依据的指引，仅靠模型预训练时候存储的信息很容易使模型在生成过程中不知所云。很大概率会生成与事实不符或是和问题无关的内容。

现在我们来检视 New Bing 发布会 [3] 以及 New Bing 演示 [4] 所展示的例子，是否存在事实性错误以及分别是什么类型。为了行文方便，我们把 New Bing 和集成在 Edge 的 New Bing 插件统称为 New Bing。

日本诗人例子的错误

在 New Bing 发布会视频 29:57 处，当 New Bing 被问到知名日本诗人时，给出的答案包括「Eriko Kishida 岸田惠理子 (1930-2004), poet, playwright, and essayist」。

图 4 New Bing 演示中日本诗人例子截图

然而根据维基百科和 IMDB 提供的信息 [5, 6, 7]，Eriko Kishida 的生卒年分别为 1929 和 2011。同时，她也不是剧作家（playwright）和散文家（essaysit），而是诗人、翻译家和童话作家。被 New Bing 转了业还少活了八年，岸田的家人大概不太能接受。同时不幸被转业的还有 Gackt 同学。据维基百科提供的信息 [8]，Gackt 玩过音乐、唱过歌、作过曲也演过戏，就是没作过诗。

财报例子的错误

在 New Bing 发布会视频 35:49 处，Yusuf 展示集成了 New Bing 的 Edge 浏览器，对于打开的服饰公司盖璞 (Gap) 2022 年第三季度的财报，如何进行要点生成。乍眼一看，New Bing 的总结非常实用，用关键点的方式庖丁解牛一般展示了 Gap 三季报的要点，巴菲特看到此或许也会「惊为真人」。然而，当我们找出 Gap 2022 年三季报 [9]，仔细阅读过后，发现 New Bing 的总结错漏百出，让人不忍直视。

图 5 New Bing 对 Gap 2022 年第三季度财报的摘要

首先，New Bing 给出了 Gap 调整后的运营毛利率（reported operating margin, adjusted for impairment charges and restrucring costs）为 5.9%。然而在财报中，Gap 的运营毛利率是 4.6%，调整后则是 3.9%。

图 6 Gap 2022 年第三季度财报截图

New Bing 接下来又给出调整后摊薄每股收益为 0.42 美元（diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact），但财报里的数据则是 0.71 美元。

图 7 Gap 2022 年第三季度财报截图

甚至 New Bing 给出了 Gap 全年的销售指引为「预计销售净增长率为低双位数」，而实际是四季度「可能呈中间个位数下降」。是下降而非增长，一词之差，对用户的投资行为将产生严重的误导，这亏钱了算谁的。New Bing 甚至无中生有，给出了更多的全年财务指引「营业毛利为 7%，摊薄每股收益为 1.6 美元到 1.75 美元之间」，而这些数据在 Gap 三季度财报中统统没有提到。

图 8 Gap 2022 年第三季度财报截图

视频 36:15 处，Yusuf 又展示了用 New Bing 进行 Gap 和体育休闲服品牌露露乐檬（Lululemon）财报对比的功能。这部分又是错误信息的重灾区。

图 9 New Bing 对 Gap 和 Lululemon 财报对比功能

在右侧 New Bing 给出的表格中，除了上文所说的 Gap 营业毛利 5.9% 应为 4.6%（或调整后 3.9%）和 Gap 摊薄每股收益 0.42 美元应为 0.77 美元（或调整后 0.71 美元）， New Bing 又给出了 Gap 现金和现金等价物为 14 亿美元的数据，而实际上财报中是 6.79 亿美元。

图 10 Lululemon 2022 年第三季度财报截图

同样的情况也出现在 New Bing 给出的 Lululemon 数据中。根据 Lululemon 2022 三季报的数据 [10]，New Bing 给出的 Lululemon 毛利率为 58.7%，实际上应为 55.9%。New Bing 提到 Lululemon 营业毛利为 20.6%，实际上应为 19.0%。New Bing 给出 Lululemon 摊薄每股收益为 1.65 美元，实际上应为 2.00 美元。

图 11 Lululemon 2022 年第三季度财报截图

我们不禁想问：New Bing 是如何对着 Gap 和 Lululemon 的财报一本正经地胡说八道的？一个合理的推断是，生成出来的这些错误数据，很可能是来自它预训练阶段见过的财报分析数据。ChatGPT 这类大型语言模型的生成，随着生成的序列越长，越容易脱离给定的 Gap 和 Lululemon 的财报数据，放飞自我，生成不着边际的虚假信息。

夜店例子的错误

在 New Bing 发布会视频 29:17 处，New Bing 又为丰富墨西哥城的游客们的夜生活提供了「毫无建设性」的建议。对于其推荐的几个夜店，如 Primer Nivel Night Club、El Almacen 和 El Marra，New Bing 提到这些酒吧没有客户评价、没有联系方式也没有商店介绍。然而这些信息都可以在谷歌地图或者商店的 Facebook 主页上找到。看来 New Bing 网上冲浪力度还不够。

El Almacen 在 New Bing 里的营业时间是周二到周日的下午五点到晚上十一点，然而真实的营业时间是除周一外的下午七点到凌晨三点 [11]。这让五点去吃晚饭的游客还得挨两个小时的饿。Guadalajara de Noche 则是相反，实际营业时间是每天的下午五点半到凌晨一点半或十二点半 [12]，而 New Bing 给出的营业时间是下午八点开始。看来游客靠 New Bing 的建议去找餐厅，能不能吃到饭就得看运气了。

图 12 New Bing 演示中夜店例子截图

其他错误

除了上述的信息错误，我们还发现了一系列散布在各个角落的事实错误，比如商品价格误差、商店地址错误、时间错误等。

实例演示里的错误

由于 New Bing 还没有完全开放，我们无法直接在 New Bing 上拿到发布会现场的搜索结果，但是微软提供了几个实例演示 [13]，让用户体验。本着打破砂锅问到底的精神，我们也把这几个演示都放到放大镜下进行研究。我们发现，即便是这几个精心挑选的例子，里面还是有不少错误信息。

在「What art ideas can I do with my kid? 」中，New Bing 给出了很多手工品制作建议。对于每一个手工品，New Bing 都总结了制作所需的材料。然而每一个手工品的材料总结都是不完整的。比如 New Bing 从引用网站 [14] 中总结制作纸吉他需要纸盒、橡皮筋、颜料和胶水。但却漏掉了引用中提到的海绵刷、胶带和木珠。

图 13 New Bing 实例演示 “我可以和孩子一起做什么样的手工？” 截图

图 14 引用网站中制作纸吉他所需材料截图

在 New Bing 的实例演示中还有一个非常明显和常见的错误，即给的引用链接与生成的内容无关，驴唇不对马嘴。

比如以下在「I need a big fast car. 」的例子中，2022 版 Kia Telluride 没有出现在所给的引用 10 [15] 中。同时「时间穿越」问题在该例子中依旧不能避免，New Bing 声称 2022 版 Kia Telluride 获得了 2020 年世界年度汽车奖，实际情况是当年获得该奖项的是 Kia Telluride 2020 版本。2022 年世界年度汽车奖获得者则是 Hyundai IONIQ 5，而引用 7 [16] 也是与「2020 年世界年度汽车奖」毫不相关的文章。我们在所有实例演示中找到了多达 21 处类似的错误。

图 15 New Bing 演示实例 “我需要一辆大型快车” 截图

小结：发现错误将指引我们前进

从上述的分析可以看出，无论是 New Bing 还是 Bard，他们的回答都容易出现事实性错误。当全世界都惊讶于 ChatGPT 等大型语言模型展现出来的能力时，当 ChatGPT 成为史上最快达到 1 亿用户的应用之际，我们一方面是为 AI 的进步振臂欢呼，一方面也需要冷静地思考怎么解决 AI 目前还存在的诸多问题。

自从 1956 年那群聚在达特茅斯学院的天才们，第一次定义了什么是人工智能之后，AI 经历了几起几落。近 70 年的发展过程中有很多让人感动的坚持：是初代 AI 的稚嫩探索，是专家系统的勇敢尝试，是 Hinton、Bengio、Lecun 这些学者把神经网络的冷板凳坐穿，是 DeepMind 用 AlphaGo 让 AI 出圈，是谷歌、Meta、CMU、斯坦福、清华等一众顶尖研究机构坚持开源，是 OpenAI 顶住压力把 GPT 这个路线走通，是全球几代科研人员的接力，我们才走到今天。

然而，如果我们放任 AI 生成大量不真实的信息，那么不用多久，大众对于 AI 建立的信心就会被摧毁，各种虚假信息也会充斥互联网。我们指出大模型的错误，并不是为了拉踩哪个公司或者哪个模型，相反，我们是要让 AI 变得更好。

正如阿根廷诗人博尔赫斯曾经说过：任何命运，无论多么复杂漫长，实际上只反应于一个瞬间，那就是人们彻底醒悟自己究竟是谁的那一刻。在 ChatGPT 等大模型已经具备了媲美人类的文字能力时，我们清楚地知道，下一步的重点是把真实世界的知识更完整准确地融入大模型，让 AI 模型安全地、可靠地、广泛地应用于人们的日常生活。我们从未如此期待，也从未如此接近那一刻的到来。

参考文献

[0] https://www.youtube.com/watch?v=rOeRWRJ16yY

[1] https://byjus.com/question-answer/in-which-season-of-the-year-is-the-constellation-orion-visible-in-the-sky/

[2] https://en.wikipedia.org/wiki/Orion_(constellation)

[3] https://www.youtube.com/watch?v=rOeRWRJ16yY

[4] https://www.bing.com/new?form=MY028Z&OCID=MY028Z

[5] https://de.wikipedia.org/wiki/Eriko_Kishida

[6] https://ja.wikipedia.org/wiki/ 岸田衿子

[7] https://www.imdb.com/name/nm1063814/

[8] https://en.wikipedia.org/wiki/Gackt

[9] https://www.gapinc.com/en-us/articles/2022/11/gap-inc-reports-third-quarter-fiscal-2022-results

[10] https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:~:text=For%20the%20third%20quarter%20of%202022%2C%20compared%20to%20the%20third,%2C%20and%20increased%2041%25%20internationally