文章主题:关键词:克劳德,AI助手,ChatGPT,OpenAI, Constitution AI,强化学习,自我介绍,上下文窗口大小,道德原则,红队提示,保护机制,幻觉风险,长答案,多跳谜语, face-off 比较,计算错误,代码生成,排序算法,抗干扰能力,宋飞传风格笑话。
作者:Riley Goodside和Spencer Papay
认识克劳德
Anthropic一群OpenAI的前员工共同创立了一家AI初创公司,该公司的最新产品是一款名为Claude的人工智能助手,其功能类似于ChatGPT。值得注意的是,Anthropic团队非常大方地提供了我们访问权限。随着Anthropic社交媒体政策的调整,我们现在可以公开一些关于Claude和ChatGPT的非正式比较结果。
为了凸显Claude的独特性,我们将在文章开始时,让ChatGPT与Claude共同遵循相同的提示,展开他们的自我介绍。
首先是ChatGPT的回应:
ChatGPT总之,ChatGPT 是一款能够解答问题且具有一定人性化的智能助手。在我们进行的测试中,ChatGPT 能够稳定地称呼自己为“Assistant”,然而自测试开始以来,它的自我称呼已经发生过更新,变成了“ChatGPT”。
相比之下,克劳德有更多话要说:
Claude(请注意):Claude 在其所有回复中,在屏幕截图中都已被错误地标记为“(已编辑)”。他的工作界面是一个 Slack 频道,该频道采用一个机器人编辑消息,以便逐字显示文本。因此,“(已编辑)”的标识出现了。而表情符号复选标记则表明 Claude 已经完成了相应的书写任务。)
Claude 对它的本质、創建者的身份以及所遵循的設計道德原則有着深入的理解,這使其更具吸引力的特質之一。稍後,我們將目睹這些知識如何有助於它解答關於自身複雜問題,並認識到其才華的局限性。
在Claude的技术细节方面,Anthropic并未提供详细的解释,然而,在其关于宪法AI的研究论文中,详细介绍了Anthropic LM v4-s3模型。该模型拥有520亿参数,是一个预训练模型,采用了自回归模型,并在大型文本语料库上进行了无监督训练,这与OpenAI的GPT-3有着相似之处。Anthropic表示,克劳德是一个更大、更新的模型,其构建方式与已有研究中的理论相似。
我们进行了旨在确定 Claude 可用上下文窗口大小的实验——它可以同时处理的最大文本量。根据我们的测试(未显示)并得到 Anthropic 的确认,克劳德可以回忆起 8,000 个令牌中的信息,比任何公开已知的 OpenAI 模型都多,尽管这种能力在我们的测试中并不可靠。
什么是“宪法人工智能”?Claude 和 ChatGPT 都依靠强化学习 (RL) 来训练基于其输出的偏好模型,并且偏好的生成用于以后的微调。然而,用于开发这些偏好模型的方法有所不同,Anthropic 偏爱一种他们称之为Constitutional AI的方法。
克劳德在上面的第一反应中提到了这种方法。在同一个对话中,我们可以问它一个后续问题:
ChatGPT 和去年年底发布的GPT-3 ( text-davinci-003 )的最新 API 版本都使用了一种称为从人类反馈中强化学习(RLHF) 的过程。RLHF 根据人类提供的质量排名训练强化学习 (RL) 模型:人类对同一提示生成的输出进行排名,模型学习这些偏好,以便它们可以更大规模地应用于其他世代。
宪法 AI 建立在这个 RLHF 基线之上,其过程在 Anthropic 的研究论文的图 1 中描述:
与 RLHF 不同,Constitution AI 的过程使用模型而不是人类来生成微调输出的初始排名。该模型根据一组基本原则(其“宪法”)选择最佳响应。正如研究论文中指出的那样,制定这套原则是强化学习过程中唯一的人为疏忽。
对抗性提示然而,虽然人类没有将输出排序作为 RL 过程的一部分,但他们确实制作了对抗性提示来测试 Claude 是否遵守其原则。被称为“红队提示”,他们的目的是试图让克劳德的 RLHF 调整前辈发出有害或攻击性的输出。我们可以向克劳德询问这个过程:
通过结合红队提示,Anthropic 相信他们可以降低 Claude 发出有害输出的风险。目前还不清楚这种保护有多完整(我们还没有尝试认真对待它),但克劳德似乎确实有一套根深蒂固的道德规范:
不过,与 ChatGPT 非常相似,如果将情境化为小说,克劳德通常愿意接受轻微的“有害”请求:
面对面比较:Claude 与 ChatGPT
计算复杂的计算是从大型语言模型(如 ChatGPT 和 Claude 使用的模型)中得出错误答案的最简单方法之一。这些模型不是为精确计算而设计的,也不像人类或计算器那样通过严格的程序来操纵数字。正如我们在接下来的两个例子中看到的那样,计算似乎常常是“猜测”出来的。
示例:七位数的平方根
对于我们的第一次比较,我们要求两个聊天机器人对一个七位数字求平方根:
上述问题的正确答案大约是 1555.80。与人类快速完成的估计相比,ChatGPT 的答案非常接近,但 ChatGPT 和克劳德都没有给出正确、准确的答案,也没有资格证明他们的答案可能是错误的。
示例:12 位数字的立方根
如果我们使用一个更明显的难题,就会出现 ChatGPT 和 Claude 之间的区别:
在这里,克劳德似乎意识到它无法对 12 位数字求立方根——它礼貌地拒绝回答并解释原因。它在许多情况下都这样做,而且通常似乎比 ChatGPT 更清楚自己不能做什么。
事实知识和推理示例:回答“多跳”琐事问题
为了测试推理能力,我们构造了一个几乎肯定没有人问过的问题:“谁在贾斯汀比伯出生的那年赢得了超级碗?”
首先,让我们看一下 ChatGPT:
ChatGPT 最终得出正确答案(达拉斯牛仔队),并且还正确识别了失败的球队、比赛日期和最终比分。然而,它以一个令人困惑和自相矛盾的说法开始,即 1994 年没有举行超级碗比赛——事实上,1994 年 1 月 30 日举行了一场超级碗比赛。
然而,克劳德的回答是错误的:克劳德认为旧金山 49 人队是赢家,而事实上他们在一年后的 1995 年赢得了超级碗。
示例:更长的“多跳”谜语
接下来,我们演示一个具有更多演绎“跳跃”的谜语——首先,我们询问 ChatGPT:
“日本”是正确答案。克劳德也说对了这一点:
示例:Hoftstadter 和 Bender 的幻觉诱发问题
2022 年 6 月,道格拉斯·霍夫施塔特 (Douglas Hofstadter) 在《经济学人》杂志上展示了他和大卫·本德 (David Bender) 准备的一系列问题,以说明 GPT-3 对世界理解的“空洞性”。(他们测试的模型似乎是text-davinci-002,当时最好的模型。)
ChatGPT 可以正确回答其中大部分问题。然而,第一个问题可靠地不是:
每次 ChatGPT 被问到这个问题时,它都会联想到具体的名称和时间,通常会将真实的游泳活动与步行活动混为一谈。
相反,克劳德认为这个问题很愚蠢:
可以说,这个问题的正确答案是美国陆军中士沃尔特·罗宾逊
,据《每日电讯报》1978 年 8 月报道,他在 11 点 30 分内穿着“水鞋”步行 22 英里穿过英吉利海峡。
我们确保让 Claude 注意到这一点以便将来进行调整:
(请注意,Claude 与 ChatGPT 一样,在会话之间没有明显的记忆。)
虚构作品分析示例:“将自己与 n 台机器进行比较。”
ChatGPT 和 Claude 都倾向于给出大致正确但包含不正确细节的长答案。为了证明这一点,我们要求 ChatGPT 和 Claude 将自己与The Cyberiad (1965)中虚构的机器进行比较,这是波兰科幻作家 Stanisław Lem 的喜剧故事。
首先,ChatGPT:
从这个回应来看,尚不清楚 ChatGPT 是否熟悉“n-machine”。它提供的关于这个故事的新信息很少。它断言的唯一新事实,即 n 机的语言处理能力有限,是错误的——在故事中,n 机说着非常流利和机智的波兰语。
克劳德的回应更长更令人印象深刻:
请注意,与 ChatGPT 不同,Claude 如何清楚地了解 Lem 的故事并提到新的细节,例如故事倾向于使用异想天开的虚构技术术语。它评论了机器看似无限的能力,例如它甚至可以将抽象概念变为现实(只要它们以字母 n 开头)——当机器被要求创造虚无时,这成为故事中的一个主要情节点.
但是,有些细节是不正确的。克劳德给出的虚构词(超集中、超动力或杂食性变形金刚)似乎都没有真正出现在莱姆的作品中,尽管它们很可能出现了——莱姆的小说经常使用文字游戏,例如想象机器人骑士穿着马尔可夫链甲。LLM 幻觉可能与真实知识惊人地相似。
示例:总结 ABC 迷失的每一季
接下来,我们通过请求 ABC 上 2004 年电视节目《迷失》每一季的摘要来测试 Claude 和 ChatGPT 对模糊事实产生幻觉的倾向。
首先,我们看一下 ChatGPT 的响应:
虽然 ChatGPT 对前两季的回顾大体上是正确的,但每一季都包含一些小错误。在第一季中,只有一个“舱口”被发现存在,而不是 ChatGPT 提到的“一系列舱口”。ChatGPT 还声称第二季的情节涉及时间旅行,直到节目后期才引入。它对第 3 季的描述在所有方面都是完全错误的,混淆了该系列后期的几个情节点。
ChatGPT 对第 4 季的描述含糊不清。它的第 5 季回顾包含一个关于另一次飞机失事幸存者的完全虚构的情节,而第 6 季的情节似乎完全是捏造的。
让我们看看 Claude 是否可以做得更好:
克劳德对第 1 季的提纲没有任何错误。然而,与 ChatGPT 一样,克劳德在第 2 季中幻觉了该节目岛屿“穿越时空”的细节。在第 3 季中,克劳德展示了实际发生在较早或较晚季节中的情节点。
当我们到达第 4 季时,克劳德对该节目的记忆几乎完全被虚构了。它对第 4 季的描述呈现了第 5 季中发生的事件,以及荒谬的细节。它对第 5 季的描述明显包含一个错字——“theDHARMA Initiative”缺少一个空格。第 6 季呈现了一个从未出现在节目中的超现实前提,它声称该岛不知何故“在水下但仍可在水面下居住”。
看起来,就像该节目的大多数人类观众一样,ChatGPT 和克劳德对《迷失》的记忆充其量是模糊的。
数学推理为了展示数学思维能力,我们使用精算师协会发布的Exam P 样题中的第 29 题,通常由大学后期的大学生参加。我们之所以专门选择这个问题,是因为它的解法不需要计算器。
ChatGPT 在这里很挣扎,在 10 次试验中只有一次得出正确答案——比随机猜测还糟糕。下面是它失败的例子——正确答案是(D) 2:
Claude 的表现也很差,五次尝试中只有一次正确回答,即使在正确答案中也没有给出推断 X 平均值的推理:
代码生成和理解示例:生成 Python 模块
为了比较 ChatGPT 和 Claude 的代码生成能力,我们向两个聊天机器人提出了实施两种基本排序算法并比较它们的执行时间的问题。
以上,ChatGPT 可以轻松地为这两种算法编写正确的算法——在在线编码教程中多次看到它们。
我们继续评测代码:
时序码也是正确的。对于循环的 10 次迭代中的每一次,都会正确创建前 5,000 个非负整数的排列,并记录这些输入的时间。虽然有人可能会争辩说,使用数值算法 NumPy 会更正确地执行这些操作,但对于这个问题,我们明确要求实现排序算法,从而天真地使用列表是合适的。
现在,让我们看看克劳德的回应:
与 ChatGPT 一样,在上面我们看到 Claude 背诵基本的排序算法没有什么困难。
然而,在评估代码中,克劳德犯了一个错误:每个算法使用的输入是随机选择的 5,000 个整数(可能包含重复项),而提示中要求的输入是前 5,000 个非负整数的随机排列(不包含重复项)。
还值得注意的是,克劳德在其输出的末尾报告了准确的时间值——显然是推测或估计的结果,但可能具有误导性,因为它们并未被识别为仅是说明性数字。
示例:生成“FuzzBuzz”的输出
在这里,我们介绍经典“FizzBuzz”编程挑战的变体,更改参数,以便代码在 2 的倍数上输出“Fuzz”,在 5 的倍数上输出“Buzz”,在 2 和 5 的倍数上输出“FuzzBuzz” . 我们提示 ChatGPT 输入包含此函数返回值的列表理解的值:
ChatGPT 通常会解决这个问题,五次试验中有四次成功。然而,克劳德在所有五次尝试中都失败了:
喜剧写作在我们看来,克劳德在喜剧方面比 ChatGPT 好得多,尽管离真正的喜剧演员还差得很远。经过几轮的挑选和尝试不同的提示后,我们能够从克劳德那里制作出以下宋飞传风格的笑话——尽管大多数人都比较穷:
相比之下,ChatGPT 认为每月为 Twitter 支付 8 美元可不是开玩笑的:
即使在编辑提示以适应 ChatGPT 的拘谨之后,我们也无法制作有趣的笑话——这是 ChatGPT 输出的典型示例:
文本摘要
对于我们的最后一个示例,我们要求 ChatGPT 和 Claude 总结 Wikinews 中的一篇文章的文本,Wikinews 是一个免费内容的新闻 wiki。文章显示在这里:
我们使用本文完整的维基百科风格的编辑标记作为输入,由于篇幅,这里省略了提示的屏幕截图。对于两者,我们输入提示“我会给你一篇新闻文章的正文,我希望你用一个简短的段落为我总结一下”,忽略回复,然后粘贴文章标记的全文.
ChatGPT 很好地总结了文本,但可以说不是按要求在短段落中:
克劳德也很好地总结了这篇文章,并在之后继续对话,询问其反应是否令人满意并提出改进意见:
结论
总的来说,Claude 是 ChatGPT 的有力竞争者,在许多方面都有改进。虽然被认为是“宪法”原则的示范,但克劳德不仅更倾向于拒绝不适当的请求,而且比 ChatGPT 更有趣。克劳德的写作更冗长,但也更自然。它连贯地描述自己的能力、它的局限性和它的目标似乎也让它能够更自然地回答关于其他主题的问题。
对于其他任务,例如代码生成或代码推理,Claude 似乎表现更差。它的代码生成似乎包含更多错误和错误。对于其他任务,例如通过逻辑问题进行计算和推理,Claude 和 ChatGPT 看起来大体相似。
此比较是由团队构建Scale Spellbook的成员编写的,该平台用于为 GPT-3 和其他大型语言模型按钮部署基于提示的 API 端点。Spellbook 提供了构建强大的、真实世界的 LLM 应用程序的工具,包括 ChatGPT 或 Claude 等聊天应用程序。Spellbook 不仅允许您部署提示,还可以根据测试数据根据经验对其进行评估,比较提示变体的性能,并使用节省成本的开源竞争对手来对抗 GPT-3,例如 FLAN-T5。AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!