文章主题:文章关键词: * 百川智能 * Baichuan2-192K大模型 * 长上下文窗口

666AI工具大全,助力做AI时代先行者!

文 | 虞景霖

编辑 | 尚恩

在当前的大模型发展阶段,上下文窗口的长度已经成为了备受关注的焦点。例如,OpenAI的GPT-4-32k具有约2.5万字的处理能力,Anthropic的Claude 100k则可处理约8万字的文本。值得注意的是,Kimi Chat这个的黑马在最近一段时间内处理了高达20万字的文本,显示出其强大的文字处理能力。

百川智能一举超过所有对手,可以说“遥遥领先”。

在10月30日,我国知名的人工智能公司——百川智能,推出了一款名为Baichuan2-192K的大模型,其独特之处在于其拥有巨大的上下文窗口,达到了惊人的192k。这款模型的处理能力也非常强大,能够应对大约35万个汉字的输入,这个数字是Claude2模型的4.4倍,更是GPT-4模型的14倍!值得一提的是,Baichuan2-192K模型的上下文窗口长度,目前是全球之最,这也是我国人工智能技术发展的一大里程碑。

百川创始人:王小川。来源:企业供图

Baichuan2-192K模型在文本生成质量、对长上下文的理解、长文本问答以及摘要生成等多个方面均展现出卓越的性能。其出色的表现不仅体现在长度方面,而且在其他诸多重要指标上同样表现出色,充分证明了其在自然语言处理领域的强大实力。

全球最长,拿下7个SOTA

LongEval是由加州大学伯克利分校联合其他高校发布,用于衡量模型对长窗口内容的记忆理解能力的测评榜单,属于业内公认的长上下文窗口理解权威评测榜单。

LongEval评测结果显示,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,取得了7项SOTA,超越了其他长窗口模型。

来源:LongEval

众所周知,随着窗口长度的增加,模型的性能表现可能会受到影响,这一点在“Claude2”的例子中表现得尤为明显,即当窗口长度超过80K时,其回答效果呈现出明显的下滑趋势。然而,令人意外的是,即使是在窗口长度达到100K的情况下,Baichuan2-192K依然能够维持出色的性能,且在长窗口内容记忆和理解方面,其表现甚至超过了其他一些知名的开源商用大模型。

来源:LongEval

随着上下文窗口的扩大,我们看到了”算力需求”和”显存压力”的增长。这种增长与业内其他上下文扩展方法如滑动窗口、降采样和小模型等不同,它们可能会损害大型模型的性能。相反,百川智能通过优化算法和工程设计,实现了窗口长度和性能之间的平衡。

百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在不损害模型性能的情况下实现了窗口长度的提升。

简单说就是,Baichuan2-192K在保证分辨率的同时增强了模型对长序列依赖的建模能力。

在DeepMind发布的长文本困惑度标准评测数据PG-19中,我们可以看到Baichuan2-192K模型在窗口长度逐渐扩大的过程中,其序列建模能力得到了显著的提升。

来源:PG19 Perplexity

在工程领域中,百川智能依托自主研发的分布式训练框架,融合了张量并行、流水并行、序列并行、重计算及Offload等多种优化技术,创新性地构建了一套全面的4D并行分布式解决方案。此方案具备自动适应模型负载的能力,可根据需求选择适宜的分布式策略,从而降低长窗口训练与推理过程中内存占用的风险。

目前,Baichuan2-192K的内测阶段已正式开启,并已向核心合作伙伴提供API调用接口。在未来,该平台有望进一步拓展至传媒、金融、法律等多个行业领域。

一次读完《三体》

那么这个长文本能力到底怎样呢?

以《三体》为例,面对近20万字的文稿,Baichuan2-192K对答如流,不仅能够提取关键信息回复细节问题,还能对长文档进行统计总结。

来源:Baichuan2-192K

此外,它还可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展。

成立于2023年4月的百川智能,在距离公司成立仅6个月时间,便接连发布了Baichuan-7B/13B,Baichuan2-7B/13B四款开源可免费商用大模型,以及Baichuan-53B、Baichuan2-53B两款闭源大模型。

大模型更新频率基本上保持着一月一更新。这一次,则带着刷新行业纪录的192K上下文窗口来袭。

长按添加「智涌」小助手入群

?? 添加请备注:公司+职务 ??

来源:公众号【智能涌现】

文章关键词: * 百川智能 * Baichuan2-192K大模型 * 长上下文窗口

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注