百川智能推出可处理35万字的Baichuan2-192K大模型：超越Claude2，开启商业化进程

文章主题：百川智能, 大模型, Baichuan2-192K, 上下文窗口长度

百川智能推大模型Baichuan2-192K：可一次输入35万字超越Claude2

雷递网乐天 10月30日

今天，我国知名的人工智能公司百川智能正式推出了Baichuan2-192K大模型。该模型的上下文窗口长度达到了惊人的192K，这一数据堪称全球之最，展示了我国人工智能技术的最新成果。

百川智能的研究表明，Baichuan2-192K具备处理约35万个汉字的能力，这一性能是目前最为优秀的长上下文窗口大模型Claude2的4.4倍。同时，它也是GPT-4的14倍，GPT-4仅能支持32K上下文窗口，并且其实测的文本生成质量、长上下文理解能力，以及长文本问答和摘要等方面的表现均优于Claude2。

在2023年的9月25日，我国知名的人工智能公司——百川智能，已经成功开放了Baichuan2的API接口，这一举动标志着百川智能正式进入企业级市场的竞争，同时也意味着其商业化的进程已经拉开序幕。具体来说，Baichuan2-192K将会采用API调用和私有化部署的形式，为企业用户提供服务。值得一提的是，百川智能已经启动了Baichuan2-192K的API内测，并已经开放给了法律、媒体、金融等行业的核心合作伙伴。

10项长文本评测7项取得SOTA，称领先Claude2

上下文窗口长度作为大模型的核心科技之一，具有至关重要的作用。它能够扩大上下文信息的范围，使模型在处理问题时能够综合更多的背景信息，从而获取更为丰富的语义理解。这种能力不仅有助于更好地识别上下文之间的关联性并消除歧义，还能让生成的内容更加精确、流畅。通过优化上下文窗口长度的设置，我们可以进一步提升大模型的表现力和实用性，使其在各种场景中都能展现出卓越的智能水平。

另外，根据LongEval的评测数据，我们发现，即使窗口长度达到100K，Baichuan2-192K仍然能够维持其卓越的性能表现。

LongEval是由加州大学伯克利分校与其他教育机构合作发布的一项评估榜单，其专注于长窗口模型的性能考核，旨在评估模型在处理长窗口内容时的记忆和理解能力。作为行业内广泛认可的长上下文窗口理解权威评测榜单，LongEval对于推动人工智能技术的发展具有重要意义。

动态采样的位置编码优化，4D并行的分布式方案

扩大上下文窗口能有效提升大模型性能是人工智能行业的共识，但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前，业内有很多提升上下文窗口长度的方式，包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度，但对模型性能均有不同程度的损害，换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。

而本次百川发布的Baichuan2-192K通过算法和工程的极致优化，实现了窗口长度和模型性能之间的平衡，做到了窗口长度和模型性能的同步提升。

算法方面，百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案，该方案能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插，在保证分辨率的同时增强了模型对长序列依赖的建模能力。在长文本困惑度标准评测数据 PG-19上，当窗口长度扩大，Baichuan2-192K的序列建模能力持续增强。

（PG-19是DeepMind发布的语言建模基准数据集，是业内公认的衡量模型长程记忆推理问题的评测标准）

工程方面，在自主开发的分布式训练框架基础上，百川智能整合目前市场上所有先进的优化技术，包括张量并行、流水并行、序列并行、重计算以及Offload功能等，独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况，自动寻找最适合的分布式策略，降低了长窗口训练和推理过程中的显存占用。

Baichuan2-192K正式开启内测

百川智能称，Baichuan2-192K现已正式开启内测，以API调用的方式开放给百川智能的核心合作伙伴，已与财经类媒体及律师事务所等机构达成了合作，将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中，不久后将全面开放。

全面开放API之后，Baichuan2-192K便能够与更多的垂直场景深度结合，真正在人们的工作、生活、学习中发挥作用，助力行业用户更好的降本增效。Baichuan2-192K能一次性处理和分析数百页的材料，对于长篇文档关键信息提取与分析，长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有助力作用。

百川智能指出，它可以帮助基金经理总结和解释财务报表，分析公司的风险和机遇；帮助律师识别多个法律文件中的风险，审核合同和法律文件；帮助技术人员阅读数百页的开发文档，并回答技术问题；还能帮助科员人员快速浏览大量论文，总结最新的前沿进展。

更长的上下文还为其更好的处理和理解复杂的多模态输入，以及实现更好的迁移学习提供了底层支撑，这将为行业探索Agent、多模态应用等前沿领域打下良好技术基础。

———————————————

雷递由媒体人雷建平创办，若转载请写明来源。返回搜狐，查看更多

责任编辑：

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章

发表回复 取消回复

发表回复取消回复