文章主题:OpenAI, Anthropic, Claude 2, AI模型
作者 | 周愚
编辑 | 邓咏仪
OpenAI的最大竞争对手之一——Anthropic,又有大动作。
在7月11日的美国时光,一家由OpenAI的前高层管理人员共同创立的人工智能公司——Claude 2人工智能模型及其网页测试版正式对外发布。值得注意的是,此次发布的网页测试版可以免费使用,并支持中文对话功能。然而,目前该功能仅限于美国和英国的用户体验。
Claude 2 API的价格与Claude 1.3保持一致(每个1000个单词的费用约为0.0465美元),并且公司计划在未来的几个月里将其推广到全球市场。
在Claude 2的这次更新中,一个值得关注的改进是单次输入长度的提升,达到了惊人的10万token。换算一下,这意味着Claude 2现在能够处理约75000个单词,这相当于数百页的技术文档或一部厚重的书籍。这样的突破性进展,无疑将极大地提高其在处理大量文本时的效率和速度。
除了模型的学习能力外,其在编程、数学以及推理方面的能力也得到了显著的提升。根据Codex HumanEval(Python编程测试)的结果,Claude的表现在得分上有了显著的增长,从1.3的56.0%提高到了2的71.2%。同时,在处理小学数学问题(GSM8K)、多学科问答(MMLU)以及科学问题(ARC-Challenge)时,Claude 2的表现相较于之前也有所提升。
来源:Anthropic
与Claude 1.3一样,Claude 2可以实现文档搜索、总结,代码分析和编码等功能。
在官方网站提供的示例中,用户需要提交待解析的文件,并提供相应指令,随后Claude便会自动阅读文件并给出回应。举例来说,两个总大小接近300KB的PDF文件,其中包含超过83000个token,但Claude 2依然顺利地完成了任务。
在尝试使用36氪平台时,我们对其进行了一个英文文档的输入,并利用中文对其进行了指令的下达。尽管Claude 2给出的回答较为明确,但是我们可以明显地感觉到其语言中充满了翻译的味道,无法达到自然流畅的中文对话效果。
广告阅读pdf,并回答问题。来源:Anthropic
来源:Claude 2使用截图
另外,Anthropic在其发布的论文中表示,Claude 2具有支持20万token上下文的潜力,但目前暂未对外开放。
为了进一步检测Claude 2的中文能力,36氪向Claude 2提出了高难度的“谐音梗”问题。Claude 2起初显然没有意识到问题的本质,还在尝试给出符合现实逻辑的答案。
而当36氪给出正确答案——“巴黎世(是)家”时,Claude 2虽然意识到,问题可能是个“谐音梗”,但却开始一本正经地胡说八道了起来。
广告来源:Claude 2使用截图
而在代码方面,官方展示了如何利用Claude 2,在一幅静态地图上加入交互的动效。使用者只需将静态地图的js文件输入聊天框,就可以要求Claude 2分析代码的功能,而后输入想要实现的新功能,Claude 2就会自动生成对应的代码。
36氪也尝试用中文提问,要求Claude 2生成一个五子棋游戏的代码。Claude 2虽然快速生成了能够运行的代码,但还不能判断胜负逻辑。不过,Claude 2也给出了相应的解释,提示用户继续编拓展其他代码。
分析代码功能。来源:Anthropic
生成新代码。来源:Anthropic
来源:Claude 2使用截图
此次更新还使用了最新的数据集,包括网站、第三方授权数据集和2023年初用户自愿提供的数据。相较之下,OpenAI的ChatGPT未联网时,数据集还停留在2021年底。
不过,Anthropic上市负责人Sandy Banerjee在接受TechCrunch时表示,Claude 2与1.3在模型上并没有什么不同,只是“不断迭代的模型开发方法的产物”。
截至目前,Anthropic声称已有“数千客户”以及一批合作伙伴。公司的投资者之一谷歌,已承诺投资3亿美元,以换取该公司10%的股权。
Anthropic还表示,要继续研发大模型,未来两年内公司还需要约50亿美元,其中大部分资金将用于计算。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!