文章主题:关键词:百川智能,通用大语言模型,Baichuan-13B-Base,对话模型,Baichuan-13B-Chat,INT4/INT8,参数量, token数据集,C-EVAL,MMLU,上下文窗口长度,ALiBi位置编码技术,中英文语料配比,多语言对齐语料,开源,可商用
作者 | 周愚
编辑 | 邓咏仪
最近,百川智能公司在7月11日对外公布了一系列新产品,其中包括通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat以及它们的两个量化版本——INT4和INT8。这些新产品的参数量达到了惊人的130亿。这一消息由36氪报道。
自今年四月份成立以来,百川智能已成功发布多款人工智能产品。其中,继Baichuan-1B之后,百川智能于近日再次推出了一款全新的通用大语言模型——Baichuan-7B。据36氪的报道,该模型将于6月15日正式亮相。
百川智能在推出预训练模型”底座”时,以其灵活的定制性赢得了开发者和企业的青睐,尤其是那些具备一定开发能力的用户。与此同时,普通用户对于拥有对话功能的对齐模型表现出更高的兴趣。随着13B-Base模型的发布,百川智能再次推出了一款新的对话模型——Baichuan-13B-Chat,旨在为开发者提供更为便捷的部署方式和快速的使用体验。
作为一家技术领先的公司,百川智能不仅推出了Baichuan-13B-Chat的INT8和INT4两个量化版本,更是实现了近乎完美的开源策略,使得这些版本可以无缝部署到诸如3090等消费级显卡上。这种技术的创新性和实用性,无疑为其在人工智能领域的地位再添砝码。
相较于我们先前的Baichuan-7B模型,新发布的Baichuan-13B在参数量上有显著的提升。该模型在1.4万亿 token的数据集上进行了训练,其参数量甚至超过了先前备受关注的LLaMA-13B模型的40%以上。
经过对百川智能的Baichuan-13B模型在中英文C-EVAL和MMLU等权威评测榜单上的能力测试数据进行分析,我们可以得出结论:该模型在各项测试中的表现均非常出色,甚至位列国内外各大模型的前沿位置。这充分展示了Baichuan-13B模型的高性能和高可靠性,使其成为当前自然语言处理领域中一颗耀眼的明星。
在百川智能参与的中文C-EVAL评测活动中,Baichuan-13B-Base和Baichuan-13B-Chat两款模型分别获得了53.4分和51.5分的优异成绩。这一成果再次证明了百川智能在自然语言处理领域的研究实力。
以C-EVAL权威评测为例,Baichuan-13B在自然科学、医学、艺术以及数学等领域的表现尤为突出,其表现甚至超越了Meta公司旗下同尺寸的LLaMA-13B大语言模型。然而在社会科学与人文科学等领域,Baichuan-13B的优势则更加明显,远超了ChatGPT的表现。
而在英文权威评测榜单MMLU上,Baichuan-13B得分则在所有领域内,超过了包括LLaMA-13B在内的所有同尺寸开源模型。Baichuan-13B-Base和ChatGPT的得分,分别达51.6分和52.1分。
Baichuan-13B在中文评测C-EVAL上的表现。来源:百川智能
Baichuan-13B在英文评测MMLU上的表现。来源:百川智能
面向中文语言模型的C-Eval评测基准,是由上海交通大学、清华大学以及爱丁堡大学联合创建,覆盖了52个来自不同行业领域的学科。 MMLU则主要是对模型的英文跨学科专业能力进行深入测试,由加州大学伯克利分校等知名高校共同打造,集合了不同领域的57个学科。
在语言模型中,上下文窗口长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B上下文窗口长度为4096,不同于Baichuan-7B的RoPE编码方式,Baichuan-13B使用了ALiBi位置编码技术。
该技术能够处理长上下文窗口,甚至推断超出训练期间读取数据的上下文长度,从而更好捕捉文本中上下文的相关性,做出更准确的预测或生成。
此外,为了取得在中、英两种语言中的均衡表现,Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料。
本次发布依然延续开源、可商用的原则。目前,Baichuan-13B-Base和Chat均已发布在Hugging Face、Github以及Model Scope平台上。该模型对学术研究完全开放,其他开发者在获得官方商用许可后,即可免费试用。
附项目开源地址:
Hugging Face:
预训练模型:
https://huggingface.co/baichuan-inc/Baichuan-13B-Base对话模型:
https://huggingface.co/baichuan-inc/Baichuan-13B-ChatGithub:https://github.com/baichuan-inc/Baichuan-13B
Model Scope:
预训练模型:
https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/对话模型:
https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/关键词:百川智能,通用大语言模型,Baichuan-13B-Base,对话模型,Baichuan-13B-Chat,INT4/INT8,参数量, token数据集,C-EVAL,MMLU,上下文窗口长度,ALiBi位置编码技术,中英文语料配比,多语言对齐语料,开源,可商用
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!