如何在数字化时代保持竞争力?
腾讯混元

如何在数字化时代保持竞争力?

这篇文章探讨了几个关键议题。首先,它强调了(关注点1)的重要性,通过引用实例详细分析了其在现实中的应用。其次,文章触及了(关注点2),提出新颖的观点挑战传统观念。最后,作者还讨论了(关注点3)的影响,提供了深入的见解和解决方案。总的来说,本文旨在引导读者对这些重要问题进行深入理解和反思。
探索未知!腾讯混元大模型带你领略语言艺术新境界,千万参数背后,它将想象变为现实,你期待吗?🔥【体验混元助手】
腾讯混元

探索未知!腾讯混元大模型带你领略语言艺术新境界,千万参数背后,它将想象变为现实,你期待吗?🔥【体验混元助手】

腾讯的混元大模型是一款超大规模预训练语言模型,参数量超过千亿,具备丰富的自然语言处理能力。它已经在多个业务场景中得到应用,并通过评测展示了强大的多语言理解和生成能力,特别是在指令理解、问答和摘要等方面超越了GPT3.5。最新升级后,混元大模型还开放了“文生图”功能,能够将文字转化为生动的图像,提升了画面质感。这款模型不仅丰富了古诗欣赏方式,也在动漫制作领域展现出创新潜力,有望推动相关产业的发展。用户对混元助手未来可能提供的个人写真和视频生成等功能充满期待。
腾讯混元大模型再进化,文生图能力重磅上线,这里是一手实测
腾讯混元

腾讯混元大模型再进化,文生图能力重磅上线,这里是一手实测

机器之心原创 编辑:蛋酱、杜伟 2023 年,大模型的落地按下加速键,文生图便是最火热的应用方向之一。自从 Stable Diffusion 诞生以来,海内外的文生图大模型不断涌现,一时有「神仙打架」之感。每一次技术迭代,都带来了模型生成效果和速度的飞速提升。就在今天,腾讯混元大模型也宣布了最新进展:文生图能力正式上线。一上手试用,我们就看到了混元大模型对于博大精深的中餐文化的理解。这里选取了让很多大模型犯难的「蚂蚁上树」,但混元轻松生成: 问题来了,现在的文生图大模型这么卷,混元大模型还有没有其他特别的优势?据官方介绍,如果从算法、模型方面来讲,当前文生图大模型还存在一些挑战,比如语义理解不够精准、生成图片结构不合理、画面细节不够和质感不高等问题。腾讯很早就开始在广告场景进行 AI 自动生成图像的探索,相关的积累不可谓不深厚。此次混元大模型升级的文生图能力,恰恰希望解决「语义、内容、质感」这三点难题。据介绍,相比其他大模型,腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势,同时,在中国风景、动漫游戏等场景等生成上有较好的表现。上手实测:混元文生图,有什么不一样?做好「文生图」这件事,对「文」的充分理解至关重要。在语义理解方面,混元文生图模型采用了中英文双语细粒度的模型,同时基于中英文双语建模实现双语理解,且通过优化算法提升了模型对细节的感知能力与生成效果。在此之前,像 Stable Diffusion 这样的热门模型虽然支持一定程度的中文,但其核心数据集 LAION-5B 仍以西方化内容为主,对中国的语言、美食、文化、习俗都理解不够。而混元文生图模型是一个中文原生的文生图模型,无论用户输入的中文诗句还是成语,都可以直接要求其创作画作。在内容合理性方面,混元文生图通过增强算法模型的图像二维空间位置感知能力,并将人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,改善了 AI 生成人体结构和手部不合理的问题。在画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。经过优化之后,混元文生图的人像模型(发丝、皱纹等)效果提升了 30%,场景模型(草木、波纹等)效果提升了 25%。这三方面的技术优势,对于混元大模型文生图产品体验的提升是显而易见的。为了验证上述能力,机器之心设置了一些题目,第一时间对混元大模型进行了摸底测试。鉴于混元是中文原生模型,自然也比其他同类产品更懂「古代中国的语言」,我们首先让它根据古诗词进行绘画。我们选取一句非常有意境的古诗「醉后不知天在水,满船清梦压星河」来测试,看混元大模型能否生成极具画面感的图。在《泊船瓜洲》这首诗中,一句「春风又绿江南岸,明月何时照我还」,写出了无数游子的乡愁。混元的生成结果,提取出「春光」、「水岸」、「明月」等意象进行有机组合,让人看到之后仿佛置身诗句场景之中:然后是有趣的「中国菜绘画」环节,来一道「鱼香肉丝」经典考题吧:从让人 san 值狂掉的中餐绘画,到现在看图下饭的水准,我们也能感受到文生图技术的不断进化。接下来看看在业界公认的「人像真实感」难题上,混元做得如何:我们知道最初 Midjourney 爆火,就是因为下面这张情侣照片,让人无法分辨这竟然无 AI 生成的。用 midjourney v5 生成的情侣图现在,我们考察一下混元大模型生成「照骗」的能力。使用的 Prompt 是:你觉得真实感如何?在我们看来,Prompt 中提到的细节拉满。这也就是腾讯重点强调的:混元大模型通过优化算法提升了对细节的感知能力与生成效果。这种能力,在很多具体的场景中才得以体现。例如在动画场景中,生成「一头小鹿在森林中奔跑、带动落叶飞起、月亮很亮很大、小鸟在空中飞翔,氛围感,CG 风格,侧面视角」。 是不是特别像是小时候看的动画中的画面?此外,在动漫创作中,文生图应用潜力巨大。我们给到混元大模型的 Prompt 是「生成 3D,动漫风格,1 个女孩,金色头发,微笑,短发,城市背景」:你觉得生成效果如何?是不是可以直接拿来当壁纸了?文生图背后,有哪些自研技术?工欲善其事,必先利其器,对于大模型同样如此。我们了解到,除了创新模型算法,腾讯混元大模型实现这样接中文地气的文生图效果,其背后还离不开高质量的图文匹配数据、自研的机器学习框架以及强大的算力基础设施。腾讯混元大模型已经形成了从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术路径。多层次的技术沉淀,意味着大模型的进化需要一步一个脚印,从实践出发,在实践中提升。首先来看支撑模型训练的数据工程。对于任何 AI 特别是大模型而言,数据都是不可或缺的三大要素之一。大模型文生图功能亦是如此,图文数据尤其是图文之间的匹配数据对生成效果的影响举足轻重。但是网络上已有数据并不是都能拿来即用的,其中很大的问题是文字对图片的描述不一定准确,这就导致大多数图文匹配数据质量比较差。如果拿来用,即使训练时间很长,模型生成效果依然达不到预期,也会影响生成质量的稳定性和后续的迭代效率。因此,提升图文数据质量成为保证文生图效果的「第一道关」。这时候往往需要通过工程化的方式提升数据质量,支撑模型训练、优化和升级,构筑算法模型的护城河。面对图文匹配数据问题,腾讯混元文生图团队的应对策略是这样的:首先细粒度地完善中文 prompt,提升图文相关性,最大化数据质量;然后采取训练数据分层、分级的策略,逐步优化模型,最大化数据效果;最后建设数据飞轮,它是大模型快速迭代的关键。团队基于线上用户使用大模型的反馈,自动化构建训练数据,加快模型迭代,最大化数据效率。数据质量、效果和效率提上去了,这就为良好的文生图效果打下了基础。而接下来要讲的机器学习框架同样重要。强大的机器学习框架或平台会极大地提升开发者构建、训练和部署模型的速度和效率。腾讯针对大模型训练和推理场景,自研了 Angel 机器学习平台,主要包括负责训练的 AngelPTM 和负责推理的 AngelHCF...
终于!腾讯混元大模型正式亮相
腾讯混元

终于!腾讯混元大模型正式亮相

整理 | 郑丽媛出品 | CSDN(ID:CSDNnews) 去年 ChatGPT 一声枪响,在全球范围内点燃了 AI 热潮,自此国内 AI 百模大战已持续了 5 个多月,期间众多大厂也都相继发布了自家的通用大模型产品。 在这场声势浩大、愈演愈烈的百模大战中,期间不少人都在问:腾讯的混元大模型呢? 今年 2 月初,业界有传言称腾讯在研发类 ChatGPT 对话式产品,成立了混元助手项目组,对此腾讯回应道:“在相关方向上已有布局”;在 5 月的一季度财报会议上,腾讯总裁刘炽平再次透露,“混元模型构建进展顺利”。但此后,便鲜有腾讯混元大模型的相关消息。 在如今这个入局者越来越多、行业却渐入冷静期的时间点,腾讯混元大模型终于“现身”了! 在 9 月 7 号举行的 2023 年腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生激动表示:“今天我们非常高兴地告诉大家,腾讯自主研发的通用大语言模型——腾讯混元大模型,正式面向产业亮相!” 主打一个“更可靠、更成熟”! 在正式介绍混元大模型前,腾讯集团副总裁蒋杰提出了一个问题:“训练烧钱、百模大战,在投入大模型时我们在期待什么?”而这个问题的答案,正是这个拥有超千亿参数规模、预训练语料超 2 万亿 tokens 的混元大模型的最大特点——“更可靠、更成熟”。 更可靠 (1)降低大语言模型的幻觉比例 所谓“幻觉”,是指在生成式 AI 发展过程中,AI 模型生成了不属于现实世界的内容,即捏造了虚假信息,而这也是目前几乎所有大模型都无法避免的问题。对此,当前业界普遍的解决方式是采用外挂插件,即给大模型“外挂”一个知识库,使其在推理时进行检索,基于检索结果再进行输出,提高正确率。 但这个方式有一个明显缺点:一旦遇到复杂任务,幻觉问题依旧无法解决。为此,腾讯选择不让混元大模型依赖外挂来解决幻觉问题,而是在预训练阶段就通过“探真”算法进行事实修正,降低了复杂任务中的幻觉。 经过预训练算法及策略的整体优化后,蒋杰表示相比其他主流开源大模型,目前混元大模型的幻觉比例降低了 30%-50%。...