百川智能发布Baichuan2-192K大模型:超越竞争对手,引领行业新潮流
Baichuan

百川智能发布Baichuan2-192K大模型:超越竞争对手,引领行业新潮流

这篇文章主要介绍了百川智能发布的 Baichuan2-192K 大模型,该模型具有超长的上下文窗口,达到 192k,可以处理约 35 万个汉字,是当前全球最长的大模型。Baichuan2-192K 在文本生成质量、长上下文理解以及长文本问答、摘要等方面表现优异,且在窗口长度扩大 while 保持强劲性能,显示了优秀的长窗口内容记忆和理解能力。Baichuan2-192K 的成功来自于百川智能对算法和工程的优化,能够在保证分辨率的同时增强模型对长序列依赖的建模能力。
《百川智能发布通用大语言模型Baichuan-13B-Base及对话模型Baichuan-13B-Chat》
Baichuan

《百川智能发布通用大语言模型Baichuan-13B-Base及对话模型Baichuan-13B-Chat》

7 月 11 日,百川智能公司发布通用大语言模型 Baichuan-13B-Base、对话模型 Baichuan-13B-Chat 及其 INT4/INT8 两个量化版本,这是继今年 4 月以来百川智能发布的第二款通用大语言模型。Baichuan-13B 在 1.4 万亿 token 数据集上训练,参数量超过 LLaMA-13B 40%。在 C-EVAL、MMLU 等中英文领域权威评测榜单上,Baichuan-13B 的表现超过了 Meta 旗下的 LLaMA-13B 等同尺寸大语言模型。
《百川智能完成3亿美元A1轮战略融资,国内大模型竞赛加剧》
Baichuan

《百川智能完成3亿美元A1轮战略融资,国内大模型竞赛加剧》

百川智能宣布完成A1轮战略融资,融资金额达3亿美元,阿里、腾讯、小米等科技巨头及多家顶级投资机构参投。百川智能自4月10日成立以来, already raised $350 million in funding and has become one of the technology unicorns in less than half a year. The company has also released six major models and is planning to release more in the future. In addition, the company has announced the launch...
可商用!百川智能开源baichuan-7B大语言模型,支持中、英文
Baichuan

可商用!百川智能开源baichuan-7B大语言模型,支持中、英文

专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注! ‍近日,搜狗创始人王小川创立的百川智能公司,宣布开源了70亿参数的大规模预训练语言模型——baichuan-7B。baichuan-7B基于Transformer 结构,支持中英双语、可商用,上下文窗口长度为4096,在大约1.2万亿 tokens上进行了训练。开源地址:https://github.com/baichuan-inc/baichuan-7BHugging Face:https://huggingface.co/baichuan-inc/baichuan-7Bbaichuan-7B在三个最具影响力的中文评估基准中,在同等参数量级大模型中的综合评分十分亮眼:微软研究院发起的评测标准 AGI Eval中,baichua -7B 综合评分34.4,在中国高考、司法考试、SAT、LSAT、GRE 等考试中发挥很好,领先于LLaMa-7B、Falcon-7B、Bloom-7B 以及 ChatGLM-6B 等不少竞争对手;C-Eval——由上交、清华、爱丁堡大学三个顶级院校联合创建的评测标准中,baichuan-7B 发挥同样出色。在覆盖了52个学科的测评中,baichuan-7B 获评34.4分,在同量级产品中排名第一。在跑分中,baichuan-7B 的表现甚至比起一些参数量级更大的模型更优秀,其中有些参数甚至是baichuan-7B 的四倍以上。榜单上,比起130亿参数的GLM-130B 一个月前的测试结果, baichuan-7B 的综合评分也仅相差1.2分。在复旦大学研究团队所创建的 GAOKAO 评测框架中,baichuan-7B 在高考题目上的表现同样惊艳,不仅评分在同参数量级的模型中拔得头筹,并且领先第二名近8分。训练数据baichuan-7B原始数据包括开源的中英文数据和自行抓取的中文互联网数据,以及部分高质量知识性数据。参考相关数据工作,频率和质量是数据处理环节重点考虑的两个维度。百川智能基于启发式规则和质量模型打分,对原始数据集进行篇章和句子粒度的过滤。在全量数据上,利用局部敏感哈希方法,对篇章和句子粒度做滤重。经过不断的调整和多轮测试,最终确认了一个在下游任务上表现最好的中英文配比。百川智能使用了一个基于自动学习的数据权重策略,对不同类别的数据进行配比。分词百川智能参考学术界方案使用 SentencePiece 中的 byte pair encoding (BPE)作为分词算法,并且进行了以下的优化:1)目前大部分开源模型主要基于英文优化,因此对中文语料存在效率较低的问题。百川智能使用2000万条以中英为主的多语言语料训练分词模型,显著提升对于中文的压缩率。2)对于数学领域,百川智能参考了 LLaMA 和 Galactica 中的方案,对数字的每一位单独分开,避免出现数字不一致的问题,对于提升数学能力有重要帮助。3)对于罕见字词(如特殊符号等),支持UTF-8-characters 的 byte 编码,因此做到未知字词的全覆盖。4)百川智能分析了不同分词器对语料的压缩率,可见百川智能的分词器明显优于 LLaMA, Falcon 等开源模型,并且对比其他中文分词器在压缩率相当的情况下,训练和推理效率更高。模型结构baichuan-7B基于标准的 Transformer 结构,百川智能采用了和 LLaMA 一样的模型设计。 位置编码:rotary-embedding是现阶段被大多模型采用的位置编码方案,具有更好的外延效果。虽然训练过程中最大长度为4096,但是实际测试中模型可以很好的扩展到 5000 tokens。...