文章主题:百川智能, 搜索增强, Baichuan2-Turbo, 企业定制化新生态
【雷峰网讯】12月19日,我国知名的人工智能公司——百川智能,正式对外公布了一项重大创新举措。该公司宣布开放基于搜索增强的Baichuan2-Turbo系列API,包括Baichuan2-Turbo-192K和Baichuan2-Turbo两个版本。这一举措标志着我国人工智能技术的发展迈出了新的一步。值得一提的是,Baichuan2-Turbo系列API在支持192K超长上下文窗口的基础上,首次引入了搜索增强知识库的功能。这意味着,API用户现在可以上传文本资料来创建自身专属的知识库,并根据自身的业务需求,打造更完整、高效的智能解决方案。作为我国大模型开源生态的领导者,百川智能此次推出的企业定制化新生态,无疑将为整个行业带来深远的影响。这不仅标志着我国人工智能技术的进一步发展,也预示着未来企业将更加灵活、高效地利用AI技术,实现业务的升级和转型。总的来说,百川智能的这一创新举措,无疑为我国人工智能技术的发展注入了新的活力,也为企业的智能化转型提供了强有力的支持。
商业体验官网:
https://platform.baichuan-ai.com/playground除此之外,我国领先的AI公司——百川智能,进一步优化了其官方网站的模型体验。如今,该公司的官网大型模型已经能够支持多种文本格式,如PDF和Word,并且允许用户直接输入URL网址。这意味着,用户可以通过百川智能的官方网站,享受到经过搜索增强和长窗口加持后的全面智能服务。
百川大模型官网:
https://www.baichuan-ai.com百川智能坚信,将搜索增强技术应用于大模型的落地实践中,是推动其高效应用的关键所在。这一技术手段可以有效地解决幻觉、时效性不佳以及专业知识缺乏等问题,从而突破性地优化了大模型应用的核心难题。具体来说,搜索增强技术的运用,不仅能够显著提升模型的性能表现,更能让大模型具备“外挂硬盘”的能力,使其能够实时获取并整合互联网上的各类信息和企业知识库,从而实现“全知”的效果。同时,搜索增强技术也能让大模型具备精准把握用户意图的能力,在大量的互联网和专业/企业知识库文档中迅速定位与用户需求最为贴合的知识点。随后,通过加载大量相关知识,借助长窗口模型对搜索结果进行深入总结和提炼,进一步强化上下文窗口的功能,从而更好地协助模型生成最佳结果。这样,各个技术模块之间的协同作用得以充分发挥,形成了强大的能力网络,实现了技术的闭环运用。
大模型+搜索构成完整技术栈,实现了大模型和领域知识、全网知识的全新链接
大模型的出现无疑是一次技术上的革命,但是,我们必须清醒地认识到,虽然它具有很大的潜力,但在当前阶段,它仍然存在一些问题和挑战。首先,大模型可能会面临幻觉的问题,这是由于它们基于大量的数据进行训练,而这些数据可能包含错误或者不完整的信息。其次,大模型的时效性较差,这对于需要实时响应的应用场景来说无疑是一个巨大的限制。最后,大模型也可能缺乏专业领域的知识,这可能会导致其在某些特定领域的应用受到限制。因此,我们必须谨慎地对待大模型的落地,并积极解决这些问题,以便让大模型能够在各个领域发挥出最大的价值。
在面对这个问题时,业界已经尝试了多种解决方法,其中包括增加参数规模、拓宽上下文窗口长度、让大模型连接外部数据库,以及利用专用数据对大模型进行训练或微调,针对特定行业。虽然这些策略各具特点,但它们也都有其固有的限制。
在提升模型智能的过程中,扩大模型参数的持续方法是一个显著的选择。然而,这一过程不仅需要大量的数据和计算能力作为支持,更带来了高昂的成本负担,尤其对于我国的中小企业来说,这无疑是一个巨大的挑战。此外,过度依赖预训练技术来解决模型的虚幻性和时效性问题,其效果也并不理想。
在当前的业界背景下,寻找到一种能够整合众多优点,并将大型模型的智能真正转化为产业价值的途径显得尤为重要。在百川智能的技术理念中,大型模型被视为新时期的计算机,它如同计算机的中央处理器,通过预先训练将各类知识内在化于模型之中,进而根据用户的指示生成相应的结果。而在这个过程中,上下文窗口则可视为计算机的内存,负责存储当前正在处理的相关文本信息。与此同时,互联网的实时数据以及企业完整的知识库共同构建了大模型时代的”硬盘”。
百川智能秉持着这一技术理念,围绕Baichuan2大模型,深度整合搜索增强技术,并将其与大模型紧密结合。同时,借助之前推出的超长上下文窗口,成功搭建起一套完善的大模型搜索增强技术体系。这一创新性的技术方案,实现了大模型、领域知识以及全网知识的全新互动,为我国的智能化发展注入了新的活力。
用行业大模型解决企业应用不是最佳方法,大模型+搜索增强可以解决99%企业知识库的定制化需求
企业自有数据/知识库,是企业的核心竞争力。大模型如果不能结合企业自有数据/知识库,对企业没有价值。对此,业界的传统做法是做行业大模型,通过预训练或者微调训练大模型。但是基于特定数据预训练或微调垂直行业大模型需要高密度的技术人才团队、大量的算力支持,并且每更新一次数据都要重新训练或微调模型,不仅成本高昂、灵活性差,更关键的是不能保证训练的可靠性和应用的稳定性,多次训练后仍会出现问题。此外,大部分企业数据,都是结构化的数据,也不适合SFT,模型无法准确记忆结构化信息,会带来幻觉。
为解决传统方法的缺陷,业内探索了长上下文窗口和向量数据库两种较好的路径。在此基础上,百川智能更进一步,不仅将向量数据库升级为搜索增强知识库,极大提升了大模型获取外部知识的能力,并且把搜索增强知识库和超长上下文窗口结合,让模型可以连接全部企业知识库以及全网信息,能够替代绝大部分的企业个性化微调,解决99%企业知识库的定制化需求,不仅为企业节省巨大成本,还能够更好地实现垂直领域知识的沉淀,让专有知识库能够真正成为企业不断增值的资产。
百川智能构建的大模型+搜索增强解决方案解决掉幻觉和时效性问题后,有效提升了大模型的可用性,拓展了大模型能够覆盖的领域,例如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等场景。而搜索增强相比微调,在提升可用性的同时还显著降低了应用成本,让更多中小企业也能够享受到大模型带来的变革,特别是在电商行业可帮助广大店家提升营销效率乃至转化率。此外,这种应用方式还可以帮助提升企业各种场景应用创新的效率,加速大模型在千行百业创造实际价值。
突破搜索增强技术多个难点,稀疏检索与向量检索并行召回率提升至 95%
虽然搜索增强能够有效解决大模型落地应用的诸多问题,但在技术层面构建这样一套系统却并不容易,需要深厚的搜索和模型研发经验来发现并解决各个环节的技术难点与挑战。
在大语言模型时代,用户的需求表达不仅口语化、多元化,并且还与上下文强相关,因此用户需求(Prompt)与搜索的对齐成为了大模型获取外部知识过程中最为核心的问题。为了更精准地理解用户意图,百川智能使用自研大语言模型对用户意图理解进行微调,能够将用户连续多轮、口语化的Prompt信息转换为更符合传统搜索引擎理解的关键词或语义结构。
此外,百川智能还参考Meta的CoVe(Chain-of-Verification Reduces Hallucination in Large Language Models)技术,将真实场景的用户复杂问题拆分成多个独立可并行检索的子结构问题,从而让大模型可以针对每个子问题进行定向的知识库搜索,提供更加准确和详尽的答案。同时通过自研的TSF(Think Step-Further)技术,百川智能的知识库可以推断出用户输入背后深层的问题,更精准的理解用户的意图,进而引导模型回答出更有价值的答案,为用户提供全面和满意的输出结果。
在精确理解用户需求的基础上,想要进一步提升知识获取的效率和准确性,还需要借助向量模型解决用户需求和知识库的语义匹配问题。为实现更好的向量检索效果,百川智能自研的向量模型使用了超过 1.5T token 的高质量中文数据进行预训练,通过自研的损失函数解决了对比学习对于 batchsize 的依赖,在C-MTEB评测集 6 个任务(分类、聚类、文本推理、排序、检索、文本相似度) 中的 5 个任务上都取得了效果的大幅领先,综合分数登上榜首。
虽然当下构建大模型知识库的主流方法是向量检索,但是向量模型的效果过于依赖训练数据的覆盖,在训练数据未覆盖的领域泛化能力会有明显折扣,并且用户 prompt 和知识库中文档长度的差距也给向量检索带来了很大挑战。
对此,百川智能在向量检索的基础上融合了稀疏检索和 rerank模型。通过稀疏检索与向量检索并行的混合检索方式,将目标文档的召回率提升到了 95%,大幅领先于市面上绝大多数开源向量模型的80%召回率。
不仅如此,对于大模型在回答过程中由于引用资料不准确以及与大模型不匹配,导致模型的“幻觉”加重的现象。百川智能还在通用RAG(检索增强生成)的技术基础上首创了Self-Critique大模型自省技术,该技术能够让大模型基于Prompt对检索回来的内容从相关性、可用性等角度进行自省,筛选出最优质、最匹配的候选内容,有效提升材料的知识密度和广度,并降低检索结果中的知识噪声。
5000万tokens数据集测试回答精度95%,长窗口+搜索实现“真·大海捞针”
长上下文窗口虽然可以接收更长的文本信息,但扩展上下文窗口长度会影响模型性能,在当前技术下存在上限。并且长窗口每次回答问题都要将文档全部重读一遍,推理效率低、成本高。百川智能通过长窗口+搜索增强的方式,在192K长上下文窗口的基础上,将大模型能够获取的原本文本规模提升了两个数量级,达到5000万tokens。通过搜索增强,模型可以先根据用户的Prompt在海量的文档中检索出最相关的内容,再将这些文档与Prompt一起放到长窗口中,有效节省了推理费用和时间成本。
“大海捞针”测试(Needle in the Heystack)是由海外知名AI创业者兼开发者 Greg Kamradt 设计的,业内公认最权威的大模型长文本准确度测试方法。
对于192k token以内的请求,百川智能可以实现100%回答精度。
而对于192k token以上的文档数据,百川智能结合搜索系统,将测试集上下文长度扩展到 5000w tokens,分别评测了纯向量检索和稀疏检索+向量检索的检索的效果。测试结果显示,稀疏检索+向量检索的方式可以实现95%的回答精度,即使在 5000万tokens的数据集中也可以做到接近全域满分,而单纯的向量检索只能实现 80%的回答精度。
本次测试,百川智能使用中文场景,实验配置如下:
• 大海(HayStack):博金大模型挑战赛-金融数据集中的80份长金融文档。
• 针(Needle):2023 年 12 月 16 日,在极客公园创新大会 2024 的现场,王小川进一步分享了大模型的新思考。在王小川看来,大模型带来的新的开发范式下,产品经理的出发点,应该从思考产品市场匹配(PMF),到思考技术与产品的匹配怎么做,即 TPF(Technology Product Fit,技术产品匹配)。
• 查询问题:王小川认为大模型时代下,产品经理的出发点是什么?
不仅如此,百川智能搜索增强数据库的表现也十分优秀,在博金大模型挑战赛-金融数据集(文档理解部分)、MultiFieldQA-zh和DuReader三个行业主流知识库测试集上的得分均领先GPT-3.5、GPT-4等行业头部模型。
据了解,目前多个行业的头部企业已与百川智能达成合作,在深度融合百川智能的长上下文窗口和搜索增强知识库的能力的基础上,对自身业务进行了智能化升级。
百川智能, 搜索增强, Baichuan2-Turbo, 企业定制化新生态
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!