王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用|最前线
Baichuan

王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用|最前线

在C-Eval、AGIEval、MMLU等多个NLP权威测试中,baichuan-7B综合效果都位于当前中文大模型的前列。 文|邓咏仪 编辑|苏建勋 来源|智能涌现(ID:AIEmergence) 封面来源|IC photo 36氪获悉,6月15日,百川智能公司正式推出中英文预训练大模型——baichuan-7B,参数量为70亿。百川智能是搜狗创始人王小川于2023年4月成立的新AI公司,36氪此前也曾做报道。baichuan-7B则是新公司成立两月后发布的第一个大模型。据百川智能,为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个权威中文评估测试中进行了综合评估,其测试结果位于国内中文大模型的前列。 在中文C-EVAL评测中,baichuan-7B的综合评分达到了42.8分,超过了ChatGLM-6B的38.9分 在MMLU英文权威评测榜单上,baichuan-7B也超过了Meta旗下的LLaMA-7B。MMLU是由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。来源:百川智能C-Eval评测基准则是由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。在中文C-EVAL评测中,baichuan-7B的综合评分达到了42.8分。而AGIEval评测基准则是由微软研究院发起,意在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学和职业资格考试。在AGIEval的评测里,baichuan-7B综合评分达到34.4分,超过LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。目前,baichuan-7B已经在Hugging Face、Github以及Model Scope平台发布。本次发布也遵循开源精神,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。此次开源内容包含推理代码、INT4量化实现、微调代码,以及预训练模型的权重。其中,微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用。在预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。在成立两月后即发布了第一个开源大模型,百川智能是如何做到的?训练语料对大模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。而在数据质量上,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。这样的结果是,相较于其他同参数规模的开源中文预训练模型,数据量提高了超过50%。训练又是另一个重要的工程壁垒。baichuan-7B整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信高效重叠,进而加速了训练效率,在千卡集群上训练的吞吐速度达到180+Tflops——这也相较业界平均水平要高。本次百川开源的的预训练模型也将开源模型窗口进行扩展,开放了4K的上下文窗口。当前,已有的开源模型窗口长度在2K以内——对一些长文本建模任务,以往模型的处理效果可能会有所制约。在需要引入外部知识做搜索增强的场景,延展到4K后,模型在训练与推理阶段就能捕获越多的上下文信息,从而让模型的应用场景更广泛。而对于大模型的“幻觉”问题,baichuan-7B也对模型训练流程进行深度优化,在这一问题上有所改善。据百川智能团队介绍,训练中,百川采用了更稳定的训练流程和超参数选择,使baichuan-7B模型的收敛速度大大提升。和同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。本次开源后,百川智能团队与北京大学与清华大学两家进行落地合作,两家高校未来也将和百川智能进行共创。附项目开源地址:Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7BGithub:https://github.com/baichuan-inc/baichuan-7BModel Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary 36氪旗下AI公众号 ?? 真诚推荐你关注 ?? 来个“分享、点赞、在看”? 「百川智能」发布首个开源中英文大模型
百川智能发Baichuan2—Turbo系列API!搜索增强解决大模型多个问题湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:我的孩子,你安心走
Baichuan

百川智能发Baichuan2—Turbo系列API!搜索增强解决大模型多个问题湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:我的孩子,你安心走

作者 | 程茜 编辑 | 心缘 智东西12月19日报道,今天,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo,并增加了搜索增强知识库。 官网接口说明:https://platform.baichuan-ai.com/playground 百川智能创始人、CEO王小川谈道,搜索增强是大模型时代的必由之路,能够有效解决大模型幻觉、时效性差、专业领域知识不足等核心问题。 百川智能以Baichuan2大模型为核心,将搜索增强技术与大模型深度融合,结合此前推出的192k超长上下文窗口,构建了一套大模型+搜索增强的完整技术栈,实现了大模型和领域知识、全网知识的连接。 目前,行业大模型在应用落地方面仍面临诸多问题,如企业的训练成本、人才储备等。一方面,百川智能的搜索增强技术可以提升大模型的性能,同时让其“外挂硬盘”,拥有互联网实时信息和企业的自有知识库;另一方面,搜索增强技术能够帮助大模型理解用户的意图,在企业的知识库文档中找到相应的知识,然后对结果进行总结提炼生成结果。 百川智能联席总裁洪涛告诉智东西,他们并不否定行业大模型,但从技术的视角看,绝大部分场景下百川智能的搜索增强方案可以替代行业大模型。 一、大模型落地难题:幻觉、时效性差、专有知识不足 现阶段,大模型仍存在很多问题,也是其走向行业落地必须面对的挑战。 首先,大模型存在幻觉,目前一些玩家通过训练更大的模型去减少幻觉,但这伴随着成本变高。 其次,大模型的数据库是静态的,王小川认为,大模型是一个时效性较差的系统。 第三,大模型商业落地的过程中专业知识不足,这是因为每个企业都有自己的私域数据,且需要实时更新。 因此,王小川认为,解决这三个问题,光靠模型本身做的大是不够的。 目前,行业里有一大策略就是,大模型加搜索才能构成完整的技术栈,王小川谈道,此前百川智能做大模型比较快的原因就是,掌握搜索技术能更好收集数据。这是因为,大模型的数据、算法、算力都和搜索相关,搜索技术不仅能帮他们更快做出大模型,大模型+搜索还能完整形成模型加商业应用的逻辑闭环。 借助搜索增强,大模型和领域知识、全网知识形成全新的完整技术栈,有利于大模型真正实现落地。 王小川展示了一个行业里公认的表达,大模型是新时代的计算机。下面这张图就将大模型比做计算机,大语言模型就是中央处理器、上下文窗口就是内存、搜索增强就是硬盘。 不过更大内存、更强的处理器,依然不能解决大模型幻觉、外部知识引入、时效性等问题。王小川谈道,在用户指令和输出中,就可以通过搜索引擎将互联网实时信息和企业完整知识库,像硬盘一样装进去,也就是大模型加硬盘能即插即用,这就使得大模型在很多领域里更实用。 广告 胆小者勿入!五四三二一…恐怖的躲猫猫游戏现在开始! × ▲百川智能大模型支持实时信息更新 在学术界,也有一些知识注入等类似理念提出,可以将外部知识挂硬盘,也就是RAG(检索增强生成),谷歌、OpenAI等也在提出类似的理念。 二、人才、算力、时间、效果……行业大模型落地挑战众多 目前而言,企业满足自身需求的做法是搭建向量数据库。王小川谈道,向量数据库实际上是搜索里的一部分功能,搜索为了保证召回进度和效率会采用向量数据库。因此,做搜索的公司已经完整掌握了向量数据库这项技术,现在,百川智能对其经过新的研发后,让更大的模型实现更好的对接。 如今模型走向落地,一些企业落地应用大模型时很多需求没解决,所以需要打造行业大模型。王小川举了个例子,如常说的L0就是标准模型,L1就是在此之上经过垂直行业数据改造的行业大模型。 然而,用行业大模型来解决企业应用的过程中,仍然面临很多问题,包括人力、算力、时间、效果、更新、升级。 在改造的过程中,需要企业有非常多的经验积累,高质量的人才才能保证系统的可靠性和稳定性。与此同时,算力方面对于企业来说也是巨大的挑战,再加上训练周期长,还需要考虑基座模型升级的影响。 因此,王小川认为,行业大模型目前并没有良好的实践案例,还面临很多问题。 三、长文本、向量数据库是基操,百川智能提出差异化解决方案 在行业模型之外,常规的解决方法是向量数据库和长窗口,王小川谈道,这两个事情是基操,百川的解决方案还包括独有的:实现稀疏检索与向量检索并行、搜索系统和大模型对齐。 其中,稀疏检索就是原来他们原来做搜索引擎时用到的机遇符号系统的方式,这种情况下向量检索语义会更加贴近。 另一大特点就是搜索系统和大模型对齐,他解释说,以前用户提问会通过一个关键词表达一个词或者短剧,今天用户提问是一个完整的问题,如何通过稀疏检索、向量检索跟这套系统相对接,就是新的技术点。 搜索和长窗口模型产生的技术挑战包括,用户场景变化,用户会提出上下文相关的prompt,与传统搜索不同;第二为如何实现高召回、高准确的搜索系统;第三为长窗口在容量、性能、成本和效率方面的问题;第四是长窗口结合搜索,对搜索召回精度要求极高。 面对这些挑战,百川智能提出了一系列解法。 今年10月,百川智能发布了Baichuan2-192k大模型,可以支持一次性输入35万字。同时,百川智能在中文语义向量综合表征能力评测C-MTEB中排名第一。 同时,该公司还实现了稀疏检索和向量检索并行,通过调优后比向量检索的可用率从80%提到95%。王小川谈道,这件事意味着将向量检索带到了新的高度。 在搜索系统和大模型对齐方面,有prompt2query和doc2query两种方案,能够对齐用户的需求。 通过这样一系列的操作,百川智能的解决方案就解决了行业大模型不可行的问题。同时大模型的外存加内存能提升两个数量级的信息处理量,大模型的处理速度更快、成本更低。王小川谈道,这种解决方案提升了几百倍的检索量后,比单用长窗口的成本更低、速度更快。 四、解决行业大模型不可行难题,文本规模达到5000tokens 总的来看,王小川认为,相比于行业大模型,百川智能的搜索增强方案在人力、算力、时间、效果、更新、升级方面都更有优势。 此前企业要自己学行业模型,需要稀有的大模型人才,并使用大量算力训练很长时间,现在只需要挂上“外部硬盘”就可以直接调用大模型能力,同时还能保证模型的可靠性及应用稳定性。...
鹏城-百川·脑海33B}:国产算力大模型训练的新篇章
Baichuan

鹏城-百川·脑海33B}:国产算力大模型训练的新篇章

百川智能与鹏城实验室宣布携手研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”,这是国产算力大模型创新与落地的一次积极实践。该大模型基于“鹏城云脑”国产算力平台训练,未来可升级至192K。双方合作旨在满足我国不断增长的智能化转型需求,助力中国人工智能产业快速崛起。
2023职场力量盛典:大变局与智未来
Baichuan

2023职场力量盛典:大变局与智未来

12月15日,脉脉“2023MAX职场力量盛典”将在北京举办,围绕AI技术爆发、就业供需变化等主题进行演讲和讨论,并发布人才迁徙报告。本届盛典邀请了专家古典、吴晨、洪涛、张坤、徐益峰等探讨AI技术对职场的影响及2024年职场趋势。同时,揭晓脉脉高聘MAX2023年度职得去公司评选结果,并在现场颁发各类奖项。MAX职场力量盛典已成为新经济行业、企业、职场人共同参与的年度盛会,期待引领未来人才高效流动和发展。