Baichuan_Page 6_666AI大模型

Baichuan

2023职场力量盛典：大变局与智未来

12月15日，脉脉“2023MAX职场力量盛典”将在北京举办，围绕AI技术爆发、就业供需变化等主题进行演讲和讨论，并发布人才迁徙报告。本届盛典邀请了专家古典、吴晨、洪涛、张坤、徐益峰等探讨AI技术对职场的影响及2024年职场趋势。同时，揭晓脉脉高聘MAX2023年度职得去公司评选结果，并在现场颁发各类奖项。MAX职场力量盛典已成为新经济行业、企业、职场人共同参与的年度盛会，期待引领未来人才高效流动和发展。

5 months前 0

Baichuan

百川智能发布第二代开源模型Baichuan2，全面助力AI研究和应用

百川智能发布第二代开源模型Baichuan 2,包括Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat及其4bit量化版本,已免费商用,并在AI模型社区魔搭ModelScope上架。该模型基于2.6万亿高质量多语言数据进行训练,保留了一代开源模型良好的生成与创作能力、流畅的多轮对话能力以及部署门槛较低等特性,同时在数学、代码、安全、逻辑推理、语义理解等方面有显著提升。Baichuan 2-13B-Base相比上一代13B模型,各项能力均有提升。两款模型在各大评测榜单上表现优秀,在部分权威评估基准中 even 超越了 LLaMA2。此外,百川智能还开源了模型训练的Check Point,并提供模型商用许可。

5 months前 0

Baichuan

百川智能与鹏城实验室开展合作突破国产算力大模型长窗口技术毛晓彤纯欲白衬衫

　　11月16日，百川智能与鹏城实验室宣布携手探索大模型训练和应用，合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”。这是国产算力大模型创新与落地的一次实践，对国产算力大模型发展具有积极示范作用。　　百川智能携手鹏城实验室助力国产算力大模型创新　　众所周知，训练大模型需要海量的算力，并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争，一定程度上是算力的比拼。在复杂多变的国际环境下，国内算力供给与需求之间的“鸿沟”持续扩大，国产化算力已经成为国内大模型企业的必要选择。　　虽然国内诸多企业在通用AI芯片方面早有布局，在芯片量产、生态构建、应用拓展领域也取得了不错进展，但基于国产算力训练大模型，仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主，仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。　　鹏城实验室表示，鹏城实验室秉持“国产算力+自主大模型”的创新理念，依托“鹏城·脑海”开源联合体，广泛联合企业、高校和科研院所，致力于通过开源群智的合作模式共享资源，为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业，自成立以来一直在推动大模型研发和开源生态建设，其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力，更好地满足我国不断增长的智能化转型需求，助力中国人工智能产业快速崛起。　　百川智能表示，百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新，繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分，在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海33B”长窗口大模型，是国产算力大模型技术创新和落地的一次突破。未来，百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作，持续助力本土大模型创新发展。　　国产算力最长上下文窗口，“鹏城-百川·脑海33B”率先实现国产算力技术突破　　论坛上，百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海33B”大模型。“鹏城-百川·脑海33B”的128K长上下文窗口基于“鹏城云脑”国产算力平台训练，未来可升级至192K，是基于国产算力训练的最长上下文窗口。　　上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要，是大模型的核心技术之一。通常而言，更长的上下文窗口可以提供更丰富的语义信息、消除歧义，能够让模型生成的内容更准确、更流畅。　　为了更好地提升“鹏城-百川·脑海33B”上下文窗口长度和模型整体性能，百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面，采用精细的数据构造，实现了段落、句子粒度的自动化数据过滤、选择、配比，良好的提升了数据质量；在训练架构上，通过NormHead、max-Z-Loss、dynamic-LR等自研或业界领先的模型训练优化技术，对Transformer模块进行深度优化，确保模型收敛稳定的同时，全面提升了模型优化效率和最终效果；此外，还在全生命周期的模型工具集中，通过与北京大学王亦洲、杨耀东老师团队的合作，首创了带安全约束的RLHF对齐技术，有效提升了模型内容生成质量和安全性。　　未来，双方将在国产算力大模型技术创新和模型落地等方面继续加强合作，并与相关领域的优势单位如北京大学、清华大学等开展协同创新，助力本土大模型在模型性能、技术创新方面持续突破，推动本土大模型进一步开源开放，为更多行业智能化转型提供帮助和支持。

5 months前 0

Baichuan

百川智能发Baichuan2—Turbo系列API!搜索增强解决大模型多个问题9岁女孩放学路上失踪，10年后在邻居家发现，父母哭到崩溃

作者 | 程茜编辑 | 心缘智东西12月19日报道，今天，百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API，包含Baichuan2-Turbo-192K及Baichuan2-Turbo，并增加了搜索增强知识库。官网接口说明：https://platform.baichuan-ai.com/playground 百川智能创始人、CEO王小川谈道，搜索增强是大模型时代的必由之路，能够有效解决大模型幻觉、时效性差、专业领域知识不足等核心问题。百川智能以Baichuan2大模型为核心，将搜索增强技术与大模型深度融合，结合此前推出的192k超长上下文窗口，构建了一套大模型+搜索增强的完整技术栈，实现了大模型和领域知识、全网知识的连接。目前，行业大模型在应用落地方面仍面临诸多问题，如企业的训练成本、人才储备等。一方面，百川智能的搜索增强技术可以提升大模型的性能，同时让其“外挂硬盘”，拥有互联网实时信息和企业的自有知识库；另一方面，搜索增强技术能够帮助大模型理解用户的意图，在企业的知识库文档中找到相应的知识，然后对结果进行总结提炼生成结果。百川智能联席总裁洪涛告诉智东西，他们并不否定行业大模型，但从技术的视角看，绝大部分场景下百川智能的搜索增强方案可以替代行业大模型。一、大模型落地难题：幻觉、时效性差、专有知识不足现阶段，大模型仍存在很多问题，也是其走向行业落地必须面对的挑战。首先，大模型存在幻觉，目前一些玩家通过训练更大的模型去减少幻觉，但这伴随着成本变高。其次，大模型的数据库是静态的，王小川认为，大模型是一个时效性较差的系统。第三，大模型商业落地的过程中专业知识不足，这是因为每个企业都有自己的私域数据，且需要实时更新。因此，王小川认为，解决这三个问题，光靠模型本身做的大是不够的。目前，行业里有一大策略就是，大模型加搜索才能构成完整的技术栈，王小川谈道，此前百川智能做大模型比较快的原因就是，掌握搜索技术能更好收集数据。这是因为，大模型的数据、算法、算力都和搜索相关，搜索技术不仅能帮他们更快做出大模型，大模型+搜索还能完整形成模型加商业应用的逻辑闭环。借助搜索增强，大模型和领域知识、全网知识形成全新的完整技术栈，有利于大模型真正实现落地。王小川展示了一个行业里公认的表达，大模型是新时代的计算机。下面这张图就将大模型比做计算机，大语言模型就是中央处理器、上下文窗口就是内存、搜索增强就是硬盘。不过更大内存、更强的处理器，依然不能解决大模型幻觉、外部知识引入、时效性等问题。王小川谈道，在用户指令和输出中，就可以通过搜索引擎将互联网实时信息和企业完整知识库，像硬盘一样装进去，也就是大模型加硬盘能即插即用，这就使得大模型在很多领域里更实用。广告胆小者勿入！五四三二一…恐怖的躲猫猫游戏现在开始！ × ▲百川智能大模型支持实时信息更新在学术界，也有一些知识注入等类似理念提出，可以将外部知识挂硬盘，也就是RAG（检索增强生成），谷歌、OpenAI等也在提出类似的理念。二、人才、算力、时间、效果……行业大模型落地挑战众多目前而言，企业满足自身需求的做法是搭建向量数据库。王小川谈道，向量数据库实际上是搜索里的一部分功能，搜索为了保证召回进度和效率会采用向量数据库。因此，做搜索的公司已经完整掌握了向量数据库这项技术，现在，百川智能对其经过新的研发后，让更大的模型实现更好的对接。如今模型走向落地，一些企业落地应用大模型时很多需求没解决，所以需要打造行业大模型。王小川举了个例子，如常说的L0就是标准模型，L1就是在此之上经过垂直行业数据改造的行业大模型。然而，用行业大模型来解决企业应用的过程中，仍然面临很多问题，包括人力、算力、时间、效果、更新、升级。在改造的过程中，需要企业有非常多的经验积累，高质量的人才才能保证系统的可靠性和稳定性。与此同时，算力方面对于企业来说也是巨大的挑战，再加上训练周期长，还需要考虑基座模型升级的影响。因此，王小川认为，行业大模型目前并没有良好的实践案例，还面临很多问题。三、长文本、向量数据库是基操，百川智能提出差异化解决方案在行业模型之外，常规的解决方法是向量数据库和长窗口，王小川谈道，这两个事情是基操，百川的解决方案还包括独有的：实现稀疏检索与向量检索并行、搜索系统和大模型对齐。其中，稀疏检索就是原来他们原来做搜索引擎时用到的机遇符号系统的方式，这种情况下向量检索语义会更加贴近。另一大特点就是搜索系统和大模型对齐，他解释说，以前用户提问会通过一个关键词表达一个词或者短剧，今天用户提问是一个完整的问题，如何通过稀疏检索、向量检索跟这套系统相对接，就是新的技术点。搜索和长窗口模型产生的技术挑战包括，用户场景变化，用户会提出上下文相关的prompt，与传统搜索不同；第二为如何实现高召回、高准确的搜索系统；第三为长窗口在容量、性能、成本和效率方面的问题；第四是长窗口结合搜索，对搜索召回精度要求极高。面对这些挑战，百川智能提出了一系列解法。今年10月，百川智能发布了Baichuan2-192k大模型，可以支持一次性输入35万字。同时，百川智能在中文语义向量综合表征能力评测C-MTEB中排名第一。同时，该公司还实现了稀疏检索和向量检索并行，通过调优后比向量检索的可用率从80%提到95%。王小川谈道，这件事意味着将向量检索带到了新的高度。在搜索系统和大模型对齐方面，有prompt2query和doc2query两种方案，能够对齐用户的需求。通过这样一系列的操作，百川智能的解决方案就解决了行业大模型不可行的问题。同时大模型的外存加内存能提升两个数量级的信息处理量，大模型的处理速度更快、成本更低。王小川谈道，这种解决方案提升了几百倍的检索量后，比单用长窗口的成本更低、速度更快。四、解决行业大模型不可行难题，文本规模达到5000tokens 总的来看，王小川认为，相比于行业大模型，百川智能的搜索增强方案在人力、算力、时间、效果、更新、升级方面都更有优势。此前企业要自己学行业模型，需要稀有的大模型人才，并使用大量算力训练很长时间，现在只需要挂上“外部硬盘”就可以直接调用大模型能力，同时还能保证模型的可靠性及应用稳定性。...

5 months前 0