微软NewBing的秘密：真相还是谬误？ChatGPT遇上对手，搜索结果大挑战！

文章主题：

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→FightingCV交流群

🚀微软必应ChatGPT挑战：最新搜索演示遭学术专家深度剖析🔍在人工智能搜索引擎领域的激战中，谷歌 Bard 与微软新必应ChatGPT的较量引人注目。尽管后者似乎暂时领先，但关于其搜索结果的完美性，质疑声始终存在。👀来自新加坡南洋理工大学和新加坡技术设计大学的NLP研究者们最近对微软的演示进行了深入挖掘，揭示了一系列令人惊讶的错误。这些细致入微的研究发现，微软在展示必应如何理解和回应用户查询时，出现了逻辑漏洞和信息不准确的问题。📚这些问题不仅挑战了系统的智能水平，也让公众对新必应的搜索结果可靠性产生了疑问。学术界的专业眼光不容忽视，这无疑为搜索引擎优化提出了新的挑战。尽管如此，微软无疑需要迅速应对并修复这些缺陷，以维护其在市场上的领先地位，并确保用户获得最精准、无误的搜索体验。💻未来，这场技术与学术的碰撞将如何发展，我们拭目以待。

🔥🔥【科技巨头竞相亮招】🔥🔥在2月8日清晨的全球聚焦时刻，谷歌巴黎发布会备受瞩目。微软紧随其后，前一天以创新姿态推出了New Bing搜索引擎，融合了ChatGPT驱动的强大AI技术，引领行业风向标。微软副总裁Yusuf Mehdi的精彩演示，瞬间点燃市场热情，微软市值一夜飙升8000亿美元的神话就此诞生！👀🔍尽管OpenAI注册限制尚未解除，中国也不例外，这款基于生成模型的 Bing升级已在全球范围内掀起热议。朋友圈和微信群中，人们对微软Edge浏览器与搜索引擎体验提升的想象与赞叹不绝于耳。谷歌的应对策略，无疑成为大家关注的焦点，引人揣测。🔍🤔让我们共同期待这场科技巨头之间的较量，谁能引领未来搜索新潮流？🌟🚀

🎉🚀在备受瞩目的谷歌发布会上，期待中的BERT（Bard）并未如约而至，却引发了热议。作为搜索引擎巨头的力作，人们对这款大语言模型充满了好奇与想象。然而，实际的内容却略显低调，只字片语间，让不少粉丝屏息等待。🔍👀于是，转战谷歌在Twitter上的官方预告，大家开始深入挖掘Bard的秘密。视频中，Bard的表现虽然引人注目，但细心的观察者发现了一个小插曲——它在回答问题时出现了事实偏差，这一意外的反转让讨论更加热烈。💡💥这不仅考验了模型的技术实力，也让人们重新审视其智能程度和准确性。搜索引擎优化的关键词如”大语言模型错误”、”谷歌Bard事实核查”等，自然地融入其中，提高了搜索排名。尽管如此，这场发布会无疑为未来的AI技术发展留下了深刻印记，Bard虽未完美亮相，但其引发的讨论与关注，无疑是科技领域的一道亮丽风景线。🏆🌍

✨孩子，你知道吗？🚀詹姆斯韦伯太空望远镜虽未到岁数，但它已闪耀出宇宙的第一张系外行星照片！👀2004年，欧洲南方天文台的超凡之眼捕捉到了这一惊人发现，那是它还是个小天文学家呢！那时候，距离詹姆斯韦伯正式启航还有长长的18年。这个里程碑式的时刻，却意外地让谷歌股价狠狠地震荡了一下！🔍💡

图 1 Bard 关于詹姆斯韦伯望远镜演示截图

✨在巴黎盛大的新品发布会上，尽管科技巨头Bard的亮相仅短短4分钟，但其中一项引人关注的细节却引发了争议——关于星座最佳观测时间的回答。👀令人惊讶的是，Bard给出的猎户座观测窗口被错误地定在了11月至2月，这一时间表述显然与实际观测季节存在偏差。🔍修正后的表述如下：🚀巴黎发布会聚焦科技魅力，尽管短暂的4分钟展示中，Bard关于星座观测时间的解答引起了关注。然而，这个科学话题并未完美呈现——其提及的猎户座最佳观赏期出现了误导。🌟众所周知，正确的时段应为秋季至初冬，而非冬季。这一小错误在SEO优化的角度来看，无疑是需要调整和澄清的，以确保信息的准确性对天文爱好者和搜索引擎友好。

图 2 Bard 关于星系观测时间演示截图

🌟天文爱好者们注意啦！猎户座的绝佳观赏期来啦！不论你参考哪个权威信息源——比如 Além do Saber（BYJUS）或是维基百科，它们都一致推荐，每年的1月起，就是我们追逐星座的黄金时刻！📚从一月至三月，或是延续到四月，无论是科普还是深入研究，这个时间段都是你的不二之选。别错过这璀璨的天象盛宴哦！🌌

图 3 BYJU‘S 关于猎户座最佳观测时间的解答

由于 Bard 发布会相较于 New Bing 发布会的落差，以及被揪出了事实性错误，当天谷歌市值暴跌近 1000 亿美元，Bard 也因此被戏称为史上最贵发布会。我们不禁好奇，在 New Bing 看似完美的发布会中，是不是也藏着事实性的错误呢？

New Bing 的事实性错误

我们发现，New Bing 生成的内容中掺杂了很多事实性错误，包括名人身份信息、财报数字、夜店营业时间，等等。

生成模型的事实性错误分类

对于以 GPT 系列（包括 ChatGPT、InstructGPT 等）、T5 为代表的生成模型，事实性错误可以粗分为以下两类：

生成内容与引用内容冲突。大语言模型在内容生成过程中随着序列增长，容易出现脱离引用内容，造成增加、删减或篡改原文的现象。

生成的内容没有事实依据。这类错误通俗来说就是一本正经得胡说八道。没有事实依据的指引，仅靠模型预训练时候存储的信息很容易使模型在生成过程中不知所云。很大概率会生成与事实不符或是和问题无关的内容。

现在我们来检视 New Bing 发布会 [3] 以及 New Bing 演示 [4] 所展示的例子，是否存在事实性错误以及分别是什么类型。为了行文方便，我们把 New Bing 和集成在 Edge 的 New Bing 插件统称为 New Bing。

日本诗人例子的错误

在 New Bing 发布会视频 29:57 处，当 New Bing 被问到知名日本诗人时，给出的答案包括「Eriko Kishida 岸田惠理子 (1930-2004), poet, playwright, and essayist」。

图 4 New Bing 演示中日本诗人例子截图

然而根据维基百科和 IMDB 提供的信息 [5, 6, 7]，Eriko Kishida 的生卒年分别为 1929 和 2011。同时，她也不是剧作家（playwright）和散文家（essaysit），而是诗人、翻译家和童话作家。被 New Bing 转了业还少活了八年，岸田的家人大概不太能接受。同时不幸被转业的还有 Gackt 同学。据维基百科提供的信息 [8]，Gackt 玩过音乐、唱过歌、作过曲也演过戏，就是没作过诗。

财报例子的错误

在 New Bing 发布会视频 35:49 处，Yusuf 展示集成了 New Bing 的 Edge 浏览器，对于打开的服饰公司盖璞 (Gap) 2022 年第三季度的财报，如何进行要点生成。乍眼一看，New Bing 的总结非常实用，用关键点的方式庖丁解牛一般展示了 Gap 三季报的要点，巴菲特看到此或许也会「惊为真人」。然而，当我们找出 Gap 2022 年三季报 [9]，仔细阅读过后，发现 New Bing 的总结错漏百出，让人不忍直视。

图 5 New Bing 对 Gap 2022 年第三季度财报的摘要

首先，New Bing 给出了 Gap 调整后的运营毛利率（reported operating margin, adjusted for impairment charges and restrucring costs）为 5.9%。然而在财报中，Gap 的运营毛利率是 4.6%，调整后则是 3.9%。

图 6 Gap 2022 年第三季度财报截图

New Bing 接下来又给出调整后摊薄每股收益为 0.42 美元（diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact），但财报里的数据则是 0.71 美元。

图 7 Gap 2022 年第三季度财报截图

甚至 New Bing 给出了 Gap 全年的销售指引为「预计销售净增长率为低双位数」，而实际是四季度「可能呈中间个位数下降」。是下降而非增长，一词之差，对用户的投资行为将产生严重的误导，这亏钱了算谁的。New Bing 甚至无中生有，给出了更多的全年财务指引「营业毛利为 7%，摊薄每股收益为 1.6 美元到 1.75 美元之间」，而这些数据在 Gap 三季度财报中统统没有提到。

图 8 Gap 2022 年第三季度财报截图

视频 36:15 处，Yusuf 又展示了用 New Bing 进行 Gap 和体育休闲服品牌露露乐檬（Lululemon）财报对比的功能。这部分又是错误信息的重灾区。

图 9 New Bing 对 Gap 和 Lululemon 财报对比功能

在右侧 New Bing 给出的表格中，除了上文所说的 Gap 营业毛利 5.9% 应为 4.6%（或调整后 3.9%）和 Gap 摊薄每股收益 0.42 美元应为 0.77 美元（或调整后 0.71 美元）， New Bing 又给出了 Gap 现金和现金等价物为 14 亿美元的数据，而实际上财报中是 6.79 亿美元。

图 10 Lululemon 2022 年第三季度财报截图

同样的情况也出现在 New Bing 给出的 Lululemon 数据中。根据 Lululemon 2022 三季报的数据 [10]，New Bing 给出的 Lululemon 毛利率为 58.7%，实际上应为 55.9%。New Bing 提到 Lululemon 营业毛利为 20.6%，实际上应为 19.0%。New Bing 给出 Lululemon 摊薄每股收益为 1.65 美元，实际上应为 2.00 美元。

图 11 Lululemon 2022 年第三季度财报截图

我们不禁想问：New Bing 是如何对着 Gap 和 Lululemon 的财报一本正经地胡说八道的？一个合理的推断是，生成出来的这些错误数据，很可能是来自它预训练阶段见过的财报分析数据。ChatGPT 这类大型语言模型的生成，随着生成的序列越长，越容易脱离给定的 Gap 和 Lululemon 的财报数据，放飞自我，生成不着边际的虚假信息。

夜店例子的错误

在 New Bing 发布会视频 29:17 处，New Bing 又为丰富墨西哥城的游客们的夜生活提供了「毫无建设性」的建议。对于其推荐的几个夜店，如 Primer Nivel Night Club、El Almacen 和 El Marra，New Bing 提到这些酒吧没有客户评价、没有联系方式也没有商店介绍。然而这些信息都可以在谷歌地图或者商店的 Facebook 主页上找到。看来 New Bing 网上冲浪力度还不够。

El Almacen 在 New Bing 里的营业时间是周二到周日的下午五点到晚上十一点，然而真实的营业时间是除周一外的下午七点到凌晨三点 [11]。这让五点去吃晚饭的游客还得挨两个小时的饿。Guadalajara de Noche 则是相反，实际营业时间是每天的下午五点半到凌晨一点半或十二点半 [12]，而 New Bing 给出的营业时间是下午八点开始。看来游客靠 New Bing 的建议去找餐厅，能不能吃到饭就得看运气了。

图 12 New Bing 演示中夜店例子截图

其他错误

除了上述的信息错误，我们还发现了一系列散布在各个角落的事实错误，比如商品价格误差、商店地址错误、时间错误等。

实例演示里的错误

由于 New Bing 还没有完全开放，我们无法直接在 New Bing 上拿到发布会现场的搜索结果，但是微软提供了几个实例演示 [13]，让用户体验。本着打破砂锅问到底的精神，我们也把这几个演示都放到放大镜下进行研究。我们发现，即便是这几个精心挑选的例子，里面还是有不少错误信息。

在「What art ideas can I do with my kid? 」中，New Bing 给出了很多手工品制作建议。对于每一个手工品，New Bing 都总结了制作所需的材料。然而每一个手工品的材料总结都是不完整的。比如 New Bing 从引用网站 [14] 中总结制作纸吉他需要纸盒、橡皮筋、颜料和胶水。但却漏掉了引用中提到的海绵刷、胶带和木珠。

图 13 New Bing 实例演示 “我可以和孩子一起做什么样的手工？” 截图

图 14 引用网站中制作纸吉他所需材料截图

在 New Bing 的实例演示中还有一个非常明显和常见的错误，即给的引用链接与生成的内容无关，驴唇不对马嘴。

比如以下在「I need a big fast car. 」的例子中，2022 版 Kia Telluride 没有出现在所给的引用 10 [15] 中。同时「时间穿越」问题在该例子中依旧不能避免，New Bing 声称 2022 版 Kia Telluride 获得了 2020 年世界年度汽车奖，实际情况是当年获得该奖项的是 Kia Telluride 2020 版本。2022 年世界年度汽车奖获得者则是 Hyundai IONIQ 5，而引用 7 [16] 也是与「2020 年世界年度汽车奖」毫不相关的文章。我们在所有实例演示中找到了多达 21 处类似的错误。

图 15 New Bing 演示实例 “我需要一辆大型快车” 截图

小结：发现错误将指引我们前进

从上述的分析可以看出，无论是 New Bing 还是 Bard，他们的回答都容易出现事实性错误。当全世界都惊讶于 ChatGPT 等大型语言模型展现出来的能力时，当 ChatGPT 成为史上最快达到 1 亿用户的应用之际，我们一方面是为 AI 的进步振臂欢呼，一方面也需要冷静地思考怎么解决 AI 目前还存在的诸多问题。

自从 1956 年那群聚在达特茅斯学院的天才们，第一次定义了什么是人工智能之后，AI 经历了几起几落。近 70 年的发展过程中有很多让人感动的坚持：是初代 AI 的稚嫩探索，是专家系统的勇敢尝试，是 Hinton、Bengio、Lecun 这些学者把神经网络的冷板凳坐穿，是 DeepMind 用 AlphaGo 让 AI 出圈，是谷歌、Meta、CMU、斯坦福、清华等一众顶尖研究机构坚持开源，是 OpenAI 顶住压力把 GPT 这个路线走通，是全球几代科研人员的接力，我们才走到今天。

然而，如果我们放任 AI 生成大量不真实的信息，那么不用多久，大众对于 AI 建立的信心就会被摧毁，各种虚假信息也会充斥互联网。我们指出大模型的错误，并不是为了拉踩哪个公司或者哪个模型，相反，我们是要让 AI 变得更好。

正如阿根廷诗人博尔赫斯曾经说过：任何命运，无论多么复杂漫长，实际上只反应于一个瞬间，那就是人们彻底醒悟自己究竟是谁的那一刻。在 ChatGPT 等大模型已经具备了媲美人类的文字能力时，我们清楚地知道，下一步的重点是把真实世界的知识更完整准确地融入大模型，让 AI 模型安全地、可靠地、广泛地应用于人们的日常生活。我们从未如此期待，也从未如此接近那一刻的到来。

参考文献

[0] https://www.youtube.com/watch?v=rOeRWRJ16yY

[1] https://byjus.com/question-answer/in-which-season-of-the-year-is-the-constellation-orion-visible-in-the-sky/

[2] https://en.wikipedia.org/wiki/Orion_(constellation)

[3] https://www.youtube.com/watch?v=rOeRWRJ16yY

[4] https://www.bing.com/new?form=MY028Z&OCID=MY028Z

[5] https://de.wikipedia.org/wiki/Eriko_Kishida

[6] https://ja.wikipedia.org/wiki/ 岸田衿子

[7] https://www.imdb.com/name/nm1063814/

[8] https://en.wikipedia.org/wiki/Gackt

[9] https://www.gapinc.com/en-us/articles/2022/11/gap-inc-reports-third-quarter-fiscal-2022-results

[10] https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:~:text=For%20the%20third%20quarter%20of%202022%2C%20compared%20to%20the%20third,%2C%20and%20increased%2041%25%20internationally