腾讯混元
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews) 去年 ChatGPT 一声枪响,在全球范围内点燃了 AI 热潮,自此国内 AI 百模大战已持续了 5 个多月,期间众多大厂也都相继发布了自家的通用大模型产品。 在这场声势浩大、愈演愈烈的百模大战中,期间不少人都在问:腾讯的混元大模型呢? 今年 2 月初,业界有传言称腾讯在研发类 ChatGPT 对话式产品,成立了混元助手项目组,对此腾讯回应道:“在相关方向上已有布局”;在 5 月的一季度财报会议上,腾讯总裁刘炽平再次透露,“混元模型构建进展顺利”。但此后,便鲜有腾讯混元大模型的相关消息。 在如今这个入局者越来越多、行业却渐入冷静期的时间点,腾讯混元大模型终于“现身”了! 在 9 月 7 号举行的 2023 年腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生激动表示:“今天我们非常高兴地告诉大家,腾讯自主研发的通用大语言模型——腾讯混元大模型,正式面向产业亮相!” 主打一个“更可靠、更成熟”! 在正式介绍混元大模型前,腾讯集团副总裁蒋杰提出了一个问题:“训练烧钱、百模大战,在投入大模型时我们在期待什么?”而这个问题的答案,正是这个拥有超千亿参数规模、预训练语料超 2 万亿 tokens 的混元大模型的最大特点——“更可靠、更成熟”。 更可靠 (1)降低大语言模型的幻觉比例 所谓“幻觉”,是指在生成式 AI 发展过程中,AI 模型生成了不属于现实世界的内容,即捏造了虚假信息,而这也是目前几乎所有大模型都无法避免的问题。对此,当前业界普遍的解决方式是采用外挂插件,即给大模型“外挂”一个知识库,使其在推理时进行检索,基于检索结果再进行输出,提高正确率。 但这个方式有一个明显缺点:一旦遇到复杂任务,幻觉问题依旧无法解决。为此,腾讯选择不让混元大模型依赖外挂来解决幻觉问题,而是在预训练阶段就通过“探真”算法进行事实修正,降低了复杂任务中的幻觉。 经过预训练算法及策略的整体优化后,蒋杰表示相比其他主流开源大模型,目前混元大模型的幻觉比例降低了 30%-50%。...