《百川智能:大模型引领者,与阿里云共筑人工智能生态》
Baichuan

《百川智能:大模型引领者,与阿里云共筑人工智能生态》

本文介绍了百川智能在大模型时代的发展和实践,其自主研发的全球最长上下文窗口大模型Baichuan2-192K引起广泛关注。百川智能自成立以来,半年内发布了7款大模型,并在短时间内实现了技术突破和商业化的转换。王小川认为,大模型将引领人类进入通用人工智能时代,而百川智能作为国内领先的大模型公司,将在社会各方面发挥重要作用。此外,百川智能与阿里云的合作也为大模型的发展提供了有力支撑,推动了国内大模型生态的繁荣。
百川智能公司合作开发更加先进的模型;随着科技的发展,人工智能的应用领域越来越广泛,其中语言模型在自然语言处理、机器翻译、语音识别等方面发挥着重要作用预训练大
Baichuan

百川智能公司合作开发更加先进的模型;随着科技的发展,人工智能的应用领域越来越广泛,其中语言模型在自然语言处理、机器翻译、语音识别等方面发挥着重要作用预训练大

本文介绍了一种名为"百川-7B"的中文预训练大模型,该模型在C-Eval、AGIEval和Gaokao等多个权威评测榜单上超越了其他大模型,并在英文的MMLU评测中领先于其他开源模型。该模型已在Hugging Face、Github和Model Scope等平台发布,并通过多个评测获得了优异成绩,成为同等参数规模下中文表现最优秀的原生预训练模型。此外,该模型还采用了高质量的中文和英文语料库进行训练,并利用自研技术提高了数据质量和多样性。该模型还优化了训练过程,实现了高效计算和通信,并开放了更大的上下文窗口,扩大了应用场景。最后,该模型秉持开源精神, code已采用Apache-2.0协议,模型权重采用了免费商用协议,用户可以免费商用。
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用|最前线
Baichuan

王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用|最前线

在C-Eval、AGIEval、MMLU等多个NLP权威测试中,baichuan-7B综合效果都位于当前中文大模型的前列。 文|邓咏仪 编辑|苏建勋 来源|智能涌现(ID:AIEmergence) 封面来源|IC photo 36氪获悉,6月15日,百川智能公司正式推出中英文预训练大模型——baichuan-7B,参数量为70亿。百川智能是搜狗创始人王小川于2023年4月成立的新AI公司,36氪此前也曾做报道。baichuan-7B则是新公司成立两月后发布的第一个大模型。据百川智能,为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个权威中文评估测试中进行了综合评估,其测试结果位于国内中文大模型的前列。 在中文C-EVAL评测中,baichuan-7B的综合评分达到了42.8分,超过了ChatGLM-6B的38.9分 在MMLU英文权威评测榜单上,baichuan-7B也超过了Meta旗下的LLaMA-7B。MMLU是由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。来源:百川智能C-Eval评测基准则是由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。在中文C-EVAL评测中,baichuan-7B的综合评分达到了42.8分。而AGIEval评测基准则是由微软研究院发起,意在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学和职业资格考试。在AGIEval的评测里,baichuan-7B综合评分达到34.4分,超过LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。目前,baichuan-7B已经在Hugging Face、Github以及Model Scope平台发布。本次发布也遵循开源精神,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。此次开源内容包含推理代码、INT4量化实现、微调代码,以及预训练模型的权重。其中,微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用。在预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。在成立两月后即发布了第一个开源大模型,百川智能是如何做到的?训练语料对大模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。而在数据质量上,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。这样的结果是,相较于其他同参数规模的开源中文预训练模型,数据量提高了超过50%。训练又是另一个重要的工程壁垒。baichuan-7B整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信高效重叠,进而加速了训练效率,在千卡集群上训练的吞吐速度达到180+Tflops——这也相较业界平均水平要高。本次百川开源的的预训练模型也将开源模型窗口进行扩展,开放了4K的上下文窗口。当前,已有的开源模型窗口长度在2K以内——对一些长文本建模任务,以往模型的处理效果可能会有所制约。在需要引入外部知识做搜索增强的场景,延展到4K后,模型在训练与推理阶段就能捕获越多的上下文信息,从而让模型的应用场景更广泛。而对于大模型的“幻觉”问题,baichuan-7B也对模型训练流程进行深度优化,在这一问题上有所改善。据百川智能团队介绍,训练中,百川采用了更稳定的训练流程和超参数选择,使baichuan-7B模型的收敛速度大大提升。和同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。本次开源后,百川智能团队与北京大学与清华大学两家进行落地合作,两家高校未来也将和百川智能进行共创。附项目开源地址:Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7BGithub:https://github.com/baichuan-inc/baichuan-7BModel Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary 36氪旗下AI公众号 ?? 真诚推荐你关注 ?? 来个“分享、点赞、在看”? 「百川智能」发布首个开源中英文大模型