文章主题:腾讯, 大模型, 混元大模型, 人工智能
腾讯补上了大模型布局中最重要的一块拼图。
9 月 7 日,在 2023 腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。腾讯介绍,混元大模型是由腾讯全链路自研的通用大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
马化腾此前曾经表示腾讯不急于推出大模型半成品。但很显然,首次亮相的混元大模型不可能是通俗意义上的「完美版」。对此,腾讯集团副总裁蒋杰将当下推出的混元大模型,定义成一个「可用」「可实践」的版本。
我们的进化之路从未停歇,从最初的大语言模型,到后来的人工智能助手,再到如今演讲中呈现的富有科技感的混元生成视频。这一切,都离不开我们在技术上的不断突破和创新。蒋杰表示:“这不仅仅是一个结束,而只是我们旅程的开始。我们对自己的要求,还远远不够高。我们期待着每个月都能为大家带来新的惊喜。”
在今年6月和7月,腾讯公司相继推出了面向企业客户的腾讯云MaaS解决方案、AI原生向量数据库Tencent Cloud VectorDB,以及本次推出的自研通用大模型。这些产品的发布展现了腾讯在云计算和人工智能领域的技术实力与创新精神,进一步提升了我国企业在数字化转型过程中的技术支持与服务体验。
在大模型时代,软件服务将面临全面改革。腾讯公司所推出的社交、游戏、娱乐、金融等各类产品,覆盖了广大C端和B端用户群体,为了适应这一趋势,腾讯正加速推进运用大模型技术来升级这些产品。
腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档以及微信搜一搜、QQ 浏览器等诸多腾讯业务与产品,现已成功接入腾讯混元大模型测试,并初见成效。值得一提的是,混元大模型还将成为腾讯云 MaaS 服务的基石,让客户能够轻松地通过 API 调用混元,甚至可以将混元视为基础模型,针对各类产业场景量身打造独特应用。
在会议上,腾讯集团高级执行副总裁、云与智慧产业事业群首席执行官汤道生明确表示,腾讯正在步入一个“全方位拥抱大模型”的时代。而腾讯集团副总裁蒋杰则进一步阐述指出,他们研发大模型的初衷并非是为了在评测中获得高分,而是要将这一技术真正应用到实际场景中。
01 混元大模型
今年6月,腾讯推出了一套行业级大型模型以及相应的工具链TI平台。然而,关于这套通用大模型的信息,却一直局限于公司内部的测试阶段。
在今日举办的 2023 腾讯全球数字生态大会上,腾讯自己的通用大模型——混元大模型,终于亮相。
在现场演示中,混元大模型揭开了「自己」的神秘面纱。现场,工作人员向混元大模型进行了一系列提问:
混元是谁?
混元的核心技术架构是什么?
混元模型参数量多大?
混元训练数据截止什么时候?(今年 7 月,每个月不断迭代)
混元大模型,你有什么特点、优点?
腾讯自研的混元大模型,拥有超过千亿参数的规模,预训练语料超过2万亿tokens,堪称通用大模型的代表。据该模型自我介绍,其在中文方面的能力已超越GPT3.5,而在英文方面虽略逊于GPT3.5,但表现同样引人注目。除此之外,腾讯还研发出了Angel机器学习框架,使得训练速度相较于业界主流框架提升了1倍,推理速度则提升了1.3倍,这无疑大大提升了其运算效率。
现场,腾讯集团副总裁蒋杰介绍道,训练烧钱、百模大战,在投入大模型时腾讯在期待什么?他认为是更成熟,更可靠的大模型。
在技术层面上,蒋杰表示,采用搜索增强和知识图谱的方法,可以有效地解决大模型中出现的「幻觉」等问题,但这种方法并不能完全消除不可靠性问题。在接受采访时,他强调,虽然他们也会使用这些技术,但是在实际应用中的比例并不高。对于大模型的预训练阶段,混元大模型的目标是控制这类问题的发生。据了解,腾讯在预训练阶段采用了「探真」算法来进行事实修正,从而将混元大模型中出现幻觉的概率降至最低。
他补充说,更成熟、更可靠的大模型,是一个拼细节的过程。「大家都知道什么叫强化学习,都知道大语言模型是通过 Transformer 来做、通过 decode 来做,但每个公司做的效果都不一样。这需要在算法、工程、数据标注的完整性等一系列综合能力上,抠细节。」
腾讯方面称,针对大模型容易「胡言乱语」的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了 30% 至 50%;通过强化学习的方法,让模型学会识别陷阱问题;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策。
对于混元大模型何时开始研发,蒋杰称,从 2020 年开始,腾讯一直在跟进和投入这样的技术能力,最早起于 400 GB、用于支撑广告业务的稀疏大模型,并不是现在看到的稠密大模型。当时,这一模型使得 GMV 提升了大约 13%,在这之后,腾讯对大模型的投入和积累逐渐增加。
在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中,混元大模型共测评 66 个能力项,在「模型开发」和「模型能力」两个重要领域的综合评价均获得了当前的最高分。在主流的评测集 MMLU、CEval 和 AGI-eval 上,混元大模型均有优异的表现,特别是在中文的理科、高考题和数学等子项上表现突出。
02 腾讯大模型
的决战,还是在产品
腾讯自研通用大模型的首次亮相在主要大厂中并不算早。从今天披露的进展来看,技术上也很难说有明显的差异或者突破性的变革,就像腾讯高管自己说的那样,混元大模型才刚刚起步,今天还不能对其有太多不切实际的要求。
但这不意味着腾讯就是这场竞争中的陪跑。虽然大模型的基础能力和积累上腾讯没有太多优势,但推动大模型落地,腾讯强大的产品和其背后广阔的用户体量,就是其最大的优势所在。
就在发布会的前一天,微信向一部分受邀用户开放了「腾讯混元助手」小程序,这是一款腾讯混元大模型多模态对话 Bot 产品,可以回答各类问题,也能处理多种任务,如:获取知识、解决数学问题、翻译、提供旅游攻略、工作建议等,也能进行 AI 绘画。
大模型本身只是一项技术,落地到真正的场景需要解决产品、用户、运营等一系列具体的问题,这也是为什么大模型厂商需要找第三方合作。但当下构建大模型的门槛越来越低,有场景的更愿意开发自己的大模型,这就让云服务商的定位越来越像一个提供开发平台和算力的供应商,巨大投入自研的通用大模型,却不容易找到场景。
而腾讯是中国最大的软件服务商,社交有微信、QQ 两个 10 亿用户级的产品,游戏能占到中国市场四成甚至更多的市场份额,旗下还有着中国前两大的支付工具,前三大的视频平台,前三大的短视频平台,以及中国最大的音乐 App、网文 App,此外在办公领域,腾讯会议、腾讯文档、企业微信等产品也有着领先的市场份额。
混元大模型就像是一个生在金矿上的「孩子」,别人都是拿着锤子找钉子,腾讯最不缺的就是钉子。会上公布 50 多个腾讯产品已经接入混元大模型,其中数亿级用户的产品比比皆是,比如有 4 亿用户的腾讯会议,覆盖 6 亿用户的腾讯广告、也有几亿用户的腾讯文档。
会上,蒋杰展示了腾讯会议、腾讯文档、腾讯广告等多个业务在接入腾讯混元大模型后的实际应用情况。
比如腾讯会议基于混元大模型打造了AI小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。据实测,在指令理解、会中问答、会议摘要、会议待办项等多个方面,混元大模型均获得较高的用户采纳率。
在文档处理方面,腾讯混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。同时,混元还能够一键生成标准格式文本,精通数百种 Excel 公式,支持自然语言生成函数,并基于表格内容生成图表,目前这些功能正在内测阶段,将在成熟后面向用户开放。
在广告业务场景,腾讯混元大模型支持智能化的广告素材创作,能够适应行业与地域特色,满足千人千面的需求,实现文字、图片、视频的自然融合。此外,基于混元大模型的能力,广告智能导购能够帮助商家在企业微信等场景,提升服务质量和服务效率。
蒋杰在接受采访时表示,其实今天腾讯大模型的应用就是跟腾讯业务的深度结合,今天是跟会议的结合,跟文档的结合,那未来可以是跟微信的结合,QQ 的结合,是跟腾讯视频的结合,腾讯音乐的结合。
大模型的发展不能也不会只靠烧钱推动,一定需要落地到具体的场景产生价值,落的场景越多,使用的用户越多,产生的商业价值、数据越多,通用大模型的训练成本就会被摊的越薄、推理成本也就降的越低,而模型能力却会更强,形成互联网老生常谈的「飞轮效应」。
在这场大模型竞争中,腾讯是最不需要「抢」的那个。做好自己的事情,持续提升模型能力,做好为现有的产品的赋能和升级,给用户创造价值,腾讯就足以赢下一张大模型时代的船票。
本文源自极客公园
腾讯, 大模型, 混元大模型, 人工智能
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!