百川智能发布第二代开源模型Baichuan2,引领AI模型潮流
Baichuan

百川智能发布第二代开源模型Baichuan2,引领AI模型潮流

近日,我国人工智能公司百川智能发布了第二代开源模型Baichuan 2及其多种版本,并在AI模型社区魔搭ModelScope上免费上架。该模型采用了大量高质量多语言数据进行训练,具有优秀的生成与创作能力、流畅的多轮对话能力及低部署门槛等特性。Baichuan 2-7B-Base和 Baichuan 2-13B-Base在各大评测榜单上表现优异,相较其他同等參数量模型表现更为突出。此外,这两个模型不仅对学术研究完全开放,对开发者也十分友好,仅需邮件申请获得官方商用许可后即可免费商用。这一举动在国内属首创,展示了我国人工智能技术的开放与进步。
百川智能192K超长上文+搜索增强破商用难题!解决99%企业定制需求新智元2023-12-21 13:40北京新智元2023-12-21 13:40北京
Baichuan

百川智能192K超长上文+搜索增强破商用难题!解决99%企业定制需求新智元2023-12-21 13:40北京新智元2023-12-21 13:40北京

编辑:编辑部 【新智元导读】就在昨天,百川智能正式发布Baichuan2-Turbo系列API,192K的超长上下文窗口+搜索增强知识库,解决了困扰行业已久的大模型商用落地难问题。 大模型之战的战场格局,现在基本已经划定。 截至今天,全国已经有了200多个大模型,未来新模型的增量和增速将持续放缓,应用侧的比拼会愈发激烈。 但一些公认的难题,却仍未解决,比如幻觉、垂直领域知识难获取、数据时效性不够、无法预测的数据集、分词器依赖、高推理延迟、有限的上下文长度、微调开销成本等等。 在这种情况下,该如何破局? 百川智能给出的答案是—— 搜索增强是大模型应用的关键,大模型+搜索是大模型落地应用的完整技术栈。 为此,百川智能打造了全新的搜索增强知识库,以及基于搜索增强的Turbo系列API——Baichuan2-Turbo-192K和Baichuan2-Turbo。 基于此,企业可以直接通过API,私人定制一套更完整、高效的智能解决方案。 一大波体验来袭 API的完整体验虽然很难展现,但我们可以通过百川智能官网的模型管中窥豹的感受搜索增强带来的体验升级。 现在,你可以直接甩给Baichuan2-Turbo-192K五个公众号文章的链接 ,让它总结出这些爆款文章的共性。 把18页28k的特斯拉22年第四季度财报会议总结拖进Baichuan2-Turbo-192K,可以让它一次性输出会议纪要,包括财务业绩和市场需求、产品和技术发展、企业战略和未来规划等等。 长达51k的商品房买卖合同,出卖人、买受人、建面、价格等重要元素,可以按JSON格式输出。 连申请CS PhD,都可以直接把三个学校的官网地址发给它,Baichuan2-Turbo-192K会快速整理出申请Stanford 、CMU、MIT CS博士的具体要求。 Baichuan2-Turbo-192K可以最多上传20个文件,每个最多50M。 相比之下,Claude最多能传5个文件,每个文件最多10M。 LLM商业落地,为什么那么难 自从ChatGPT问世以来,大模型已经红火了整整一年。但在商业落地这块,却还没有实现非常理想的效果。 至于原因何在,我们不妨先更全面地了解一下「大模型」落地应用,到底是什么样的。 今年11月,OpenAI著名科学家Andrej Karpathy提出了一种全新的理念——「大模型操作系统」。 无独有偶,百川智能也有类似的认知,认为大模型时代的计算机主要包含以下几个部分: 其中,大模型类似于「CPU」,通过预训练将知识内化在模型内部,然后根据用户的Prompt生成结果;上下文窗口可以看做是「内存」,存储了当下正在处理的文本;互联网信息与企业知识库则共同构成了这个系统的「硬盘」。 当我们把它类比成最常见的计算机之后,商业化难的原因就显而易见了。 作为CPU的大模型基于Transformer架构打造,是一种在海量数据上预训练的概率预测模型,以参数的形式将知识内化在模型内部,道不清说不明,而且通用大模型在预训练过程中它给长尾知识分配的权重比较小。 对于一些非常重要但数据量很小的知识,它虽然也会内化到模型中,但是在输出时并不会给太大的权重,因此存在幻觉、时效性差、专业知识不足等先天缺陷。 而互联网信息与企业知识库存在「硬盘」里,如果大模型既没有在训练时学会,又不能随时访问,那么就一定会出现专业知识的空白。 大模型+搜索增强,是完整技术栈 对于商用大模型来说,最重要的就是去解决企业的问题。 而要满足千行百业的需求,模型就必须要学会这些垂直领域的专业知识。 在商业化初期,厂商为了解决通用大模型领域知识匮乏的问题,各种行业大模型层出不穷。 然而,新的问题又随之而来—— 此外,大部分企业数据都是结构化的数据,模型无法准确记忆,并不适合用来微调。 为解决传统方法的缺陷,不管是学界还是业界,都认为长上下文窗口和向量数据库是两种更好的路径。 在学术研究领域,主要的研究方向是「知识注入」和「知识利用」,让LLM和外部知识相结合来缓解问题。 多数人比较熟悉的是,2021年OpenA发布的WebGPT,可以让GPT-3通过浏览引擎来获取外部知识;Meta提出的CoVe(验证链)的提示工程方法,可以让模型访问外部数据库来验证问题。 在产业领域,开源RAG生态最典型的代表便是LangChain、Lamma Index,通过提供专门构建RAG应用程序的组件,包括分割器、数据库等等,方便了开发者构建应用。 OpenAI首届开发者大会上,曾重磅发布了自家的RAG产品Retrieval检索工具——OpenAI Assistants...