文章主题:OpenAI, Anthropic, Claude 2, AI模型
作者 | 周愚
编辑 | 邓咏仪
OpenAI的最大竞争对手之一——Anthropic,又有大动作。
在7月11日的美国时间,一家由OpenAI前高管联合创办的人工智能公司向世界推出了他们最新的AI模型——Claude 2,并相应的推出了网页测试版。值得注意的是,这个网页测试版现在可以向全球用户提供免费的使用,并且已经支持了中文对话功能。然而,目前这项服务仅限于美国和英国的注册用户。
Claude 2 API的价格与Claude 1.3保持一致(每个1000个单词的费用约为0.0465美元),并且公司计划在未来几个月内将其推广到全球市场。
在Claude 2的这次更新中,一个引人注目的改进是单次输入长度的提升,达到了惊人的10万token。这对于目前商业可用模型而言,无疑是一项巨大的突破。换算一下,10万Token相當於大约75000個單詞,這相当于數百頁的技术文件或一本书籍。這一變革將极大地提高Claude 2的处理效率,使其能夠應對更複雜、更多元的自然語言處理任務。
除了模型的学习能力外,其在编程、数学以及推理方面的能力也得到了显著的提升。根据Codex HumanEval(Python编程测试)的结果,Claude的表现在得分上有了显著的增长,从1.3的56.0%提高到了2的71.2%。同时,在处理小学数学问题(GSM8K)、多学科问答(MMLU)以及科学问题(ARC-Challenge)时,Claude 2的表现相较于之前也有所提升。
来源:Anthropic
与Claude 1.3一样,Claude 2可以实现文档搜索、总结,代码分析和编码等功能。
在官方网站提供的示例中,用户需要提交待解析的文件,并提供相应指令,随后Claude便会自动阅读文件并给出解答。举例来说,两个总大小接近300KB的PDF文件,其中包含超过83000个token,但Claude 2依然顺利地完成了任务。
在尝试使用36氪平台时,我们选择了一个英文文档作为测试案例,并通过中文对其进行了指令输入。尽管Claude 2给出的回答较为明确,但我们仍然能强烈地感觉到其翻译痕迹,这使得其无法达到自然、流畅的中文对话效果。
广告阅读pdf,并回答问题。来源:Anthropic
来源:Claude 2使用截图
另外,Anthropic在其发布的论文中表示,Claude 2具有支持20万token上下文的潜力,但目前暂未对外开放。
为了进一步检测Claude 2的中文能力,36氪向Claude 2提出了高难度的“谐音梗”问题。Claude 2起初显然没有意识到问题的本质,还在尝试给出符合现实逻辑的答案。
而当36氪给出正确答案——“巴黎世(是)家”时,Claude 2虽然意识到,问题可能是个“谐音梗”,但却开始一本正经地胡说八道了起来。
广告来源:Claude 2使用截图
而在代码方面,官方展示了如何利用Claude 2,在一幅静态地图上加入交互的动效。使用者只需将静态地图的js文件输入聊天框,就可以要求Claude 2分析代码的功能,而后输入想要实现的新功能,Claude 2就会自动生成对应的代码。
36氪也尝试用中文提问,要求Claude 2生成一个五子棋游戏的代码。Claude 2虽然快速生成了能够运行的代码,但还不能判断胜负逻辑。不过,Claude 2也给出了相应的解释,提示用户继续编拓展其他代码。
分析代码功能。来源:Anthropic
生成新代码。来源:Anthropic
来源:Claude 2使用截图
此次更新还使用了最新的数据集,包括网站、第三方授权数据集和2023年初用户自愿提供的数据。相较之下,OpenAI的ChatGPT未联网时,数据集还停留在2021年底。
不过,Anthropic上市负责人Sandy Banerjee在接受TechCrunch时表示,Claude 2与1.3在模型上并没有什么不同,只是“不断迭代的模型开发方法的产物”。
截至目前,Anthropic声称已有“数千客户”以及一批合作伙伴。公司的投资者之一谷歌,已承诺投资3亿美元,以换取该公司10%的股权。
Anthropic还表示,要继续研发大模型,未来两年内公司还需要约50亿美元,其中大部分资金将用于计算。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!