文章主题:百川智能, 大模型, Baichuan2-192K, 上下文窗口长度

666AI工具大全,助力做AI时代先行者!

百川智能推大模型Baichuan2-192K:可一次输入35万字 超越Claude2

a650cf781b0a4fc5b3e374af4508e138.jpeg

雷递网 乐天 10月30日

今天,我国知名的人工智能公司百川智能正式推出了Baichuan2-192K大模型。该模型的上下文窗口长度达到了惊人的192K,这一数据堪称全球之最,展示了我国人工智能技术的最新成果。

百川智能的研究表明,Baichuan2-192K具备处理约35万个汉字的能力,这一性能是目前最为优秀的长上下文窗口大模型Claude2的4.4倍。同时,它也是GPT-4的14倍,GPT-4仅能支持32K上下文窗口,并且其实测的文本生成质量、长上下文理解能力,以及长文本问答和摘要等方面的表现均优于Claude2。

在2023年的9月25日,我国知名的人工智能公司——百川智能,已经成功开放了Baichuan2的API接口,这一举动标志着百川智能正式进入企业级市场的竞争,同时也意味着其商业化的进程已经拉开序幕。具体来说,Baichuan2-192K将会采用API调用和私有化部署的形式,为企业用户提供服务。值得一提的是,百川智能已经启动了Baichuan2-192K的API内测,并已经开放给了法律、媒体、金融等行业的核心合作伙伴。

10项长文本评测7项取得SOTA,称领先Claude2

上下文窗口长度作为大模型的核心科技之一,具有至关重要的作用。它能够扩大上下文信息的范围,使模型在处理问题时能够综合更多的背景信息,从而获取更为丰富的语义理解。这种能力不仅有助于更好地识别上下文之间的关联性并消除歧义,还能让生成的内容更加精确、流畅。通过优化上下文窗口长度的设置,我们可以进一步提升大模型的表现力和实用性,使其在各种场景中都能展现出卓越的智能水平。

65a3b983ff7d4f2b84a40390114272d9.png

另外,根据LongEval的评测数据,我们发现,即使窗口长度达到100K,Baichuan2-192K仍然能够维持其卓越的性能表现。

81cdf22c6f444d0eaf6e13cf44824006.png

LongEval是由加州大学伯克利分校与其他教育机构合作发布的一项评估榜单,其专注于长窗口模型的性能考核,旨在评估模型在处理长窗口内容时的记忆和理解能力。作为行业内广泛认可的长上下文窗口理解权威评测榜单,LongEval对于推动人工智能技术的发展具有重要意义。

动态采样的位置编码优化,4D并行的分布式方案

扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前,业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。

而本次百川发布的Baichuan2-192K通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。

算法方面,百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,该方案能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证分辨率的同时增强了模型对长序列依赖的建模能力。在长文本困惑度标准评测数据 PG-19上,当窗口长度扩大,Baichuan2-192K的序列建模能力持续增强。

5e6ebbc9f4d749f2ba569d8c0f14cec7.jpeg

(PG-19是DeepMind发布的语言建模基准数据集,是业内公认的衡量模型长程记忆推理问题的评测标准)

工程方面,在自主开发的分布式训练框架基础上,百川智能整合目前市场上所有先进的优化技术,包括张量并行、流水并行、序列并行、重计算以及Offload功能等,独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况,自动寻找最适合的分布式策略,降低了长窗口训练和推理过程中的显存占用。

Baichuan2-192K正式开启内测

百川智能称,Baichuan2-192K现已正式开启内测,以API调用的方式开放给百川智能的核心合作伙伴,已与财经类媒体及律师事务所等机构达成了合作,将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中,不久后将全面开放。

全面开放API之后,Baichuan2-192K便能够与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用,助力行业用户更好的降本增效。Baichuan2-192K能一次性处理和分析数百页的材料,对于长篇文档关键信息提取与分析,长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有助力作用。

百川智能指出,它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展。

更长的上下文还为其更好的处理和理解复杂的多模态输入,以及实现更好的迁移学习提供了底层支撑,这将为行业探索Agent、多模态应用等前沿领域打下良好技术基础。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。返回搜狐,查看更多

责任编辑:

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *