腾讯混元_Page 5_666AI大模型

腾讯混元

腾讯混元大模型再进化，文生图能力重磅上线，这里是一手实测

机器之心原创编辑：蛋酱、杜伟 2023 年，大模型的落地按下加速键，文生图便是最火热的应用方向之一。自从 Stable Diffusion 诞生以来，海内外的文生图大模型不断涌现，一时有「神仙打架」之感。每一次技术迭代，都带来了模型生成效果和速度的飞速提升。就在今天，腾讯混元大模型也宣布了最新进展：文生图能力正式上线。一上手试用，我们就看到了混元大模型对于博大精深的中餐文化的理解。这里选取了让很多大模型犯难的「蚂蚁上树」，但混元轻松生成：问题来了，现在的文生图大模型这么卷，混元大模型还有没有其他特别的优势？据官方介绍，如果从算法、模型方面来讲，当前文生图大模型还存在一些挑战，比如语义理解不够精准、生成图片结构不合理、画面细节不够和质感不高等问题。腾讯很早就开始在广告场景进行 AI 自动生成图像的探索，相关的积累不可谓不深厚。此次混元大模型升级的文生图能力，恰恰希望解决「语义、内容、质感」这三点难题。据介绍，相比其他大模型，腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势，同时，在中国风景、动漫游戏等场景等生成上有较好的表现。上手实测：混元文生图，有什么不一样？做好「文生图」这件事，对「文」的充分理解至关重要。在语义理解方面，混元文生图模型采用了中英文双语细粒度的模型，同时基于中英文双语建模实现双语理解，且通过优化算法提升了模型对细节的感知能力与生成效果。在此之前，像 Stable Diffusion 这样的热门模型虽然支持一定程度的中文，但其核心数据集 LAION-5B 仍以西方化内容为主，对中国的语言、美食、文化、习俗都理解不够。而混元文生图模型是一个中文原生的文生图模型，无论用户输入的中文诗句还是成语，都可以直接要求其创作画作。在内容合理性方面，混元文生图通过增强算法模型的图像二维空间位置感知能力，并将人体骨架和人手结构等先验信息引入到生成过程中，让生成的图像结构更合理，改善了 AI 生成人体结构和手部不合理的问题。在画面质感方面，混元文生图基于多模型融合的方法，提升生成质感。经过优化之后，混元文生图的人像模型（发丝、皱纹等）效果提升了 30%，场景模型（草木、波纹等）效果提升了 25%。这三方面的技术优势，对于混元大模型文生图产品体验的提升是显而易见的。为了验证上述能力，机器之心设置了一些题目，第一时间对混元大模型进行了摸底测试。鉴于混元是中文原生模型，自然也比其他同类产品更懂「古代中国的语言」，我们首先让它根据古诗词进行绘画。我们选取一句非常有意境的古诗「醉后不知天在水，满船清梦压星河」来测试，看混元大模型能否生成极具画面感的图。在《泊船瓜洲》这首诗中，一句「春风又绿江南岸，明月何时照我还」，写出了无数游子的乡愁。混元的生成结果，提取出「春光」、「水岸」、「明月」等意象进行有机组合，让人看到之后仿佛置身诗句场景之中：然后是有趣的「中国菜绘画」环节，来一道「鱼香肉丝」经典考题吧：从让人 san 值狂掉的中餐绘画，到现在看图下饭的水准，我们也能感受到文生图技术的不断进化。接下来看看在业界公认的「人像真实感」难题上，混元做得如何：我们知道最初 Midjourney 爆火，就是因为下面这张情侣照片，让人无法分辨这竟然无 AI 生成的。用 midjourney v5 生成的情侣图现在，我们考察一下混元大模型生成「照骗」的能力。使用的 Prompt 是：你觉得真实感如何？在我们看来，Prompt 中提到的细节拉满。这也就是腾讯重点强调的：混元大模型通过优化算法提升了对细节的感知能力与生成效果。这种能力，在很多具体的场景中才得以体现。例如在动画场景中，生成「一头小鹿在森林中奔跑、带动落叶飞起、月亮很亮很大、小鸟在空中飞翔，氛围感，CG 风格，侧面视角」。是不是特别像是小时候看的动画中的画面？此外，在动漫创作中，文生图应用潜力巨大。我们给到混元大模型的 Prompt 是「生成 3D，动漫风格，1 个女孩，金色头发，微笑，短发，城市背景」：你觉得生成效果如何？是不是可以直接拿来当壁纸了？文生图背后，有哪些自研技术？工欲善其事，必先利其器，对于大模型同样如此。我们了解到，除了创新模型算法，腾讯混元大模型实现这样接中文地气的文生图效果，其背后还离不开高质量的图文匹配数据、自研的机器学习框架以及强大的算力基础设施。腾讯混元大模型已经形成了从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术路径。多层次的技术沉淀，意味着大模型的进化需要一步一个脚印，从实践出发，在实践中提升。首先来看支撑模型训练的数据工程。对于任何 AI 特别是大模型而言，数据都是不可或缺的三大要素之一。大模型文生图功能亦是如此，图文数据尤其是图文之间的匹配数据对生成效果的影响举足轻重。但是网络上已有数据并不是都能拿来即用的，其中很大的问题是文字对图片的描述不一定准确，这就导致大多数图文匹配数据质量比较差。如果拿来用，即使训练时间很长，模型生成效果依然达不到预期，也会影响生成质量的稳定性和后续的迭代效率。因此，提升图文数据质量成为保证文生图效果的「第一道关」。这时候往往需要通过工程化的方式提升数据质量，支撑模型训练、优化和升级，构筑算法模型的护城河。面对图文匹配数据问题，腾讯混元文生图团队的应对策略是这样的：首先细粒度地完善中文 prompt，提升图文相关性，最大化数据质量；然后采取训练数据分层、分级的策略，逐步优化模型，最大化数据效果；最后建设数据飞轮，它是大模型快速迭代的关键。团队基于线上用户使用大模型的反馈，自动化构建训练数据，加快模型迭代，最大化数据效率。数据质量、效果和效率提上去了，这就为良好的文生图效果打下了基础。而接下来要讲的机器学习框架同样重要。强大的机器学习框架或平台会极大地提升开发者构建、训练和部署模型的速度和效率。腾讯针对大模型训练和推理场景，自研了 Angel 机器学习平台，主要包括负责训练的 AngelPTM 和负责推理的 AngelHCF...

1 month前 1

《腾讯混元大模型：实用主义路线的产业应用》

文心大模型：开发者的黄金伙伴

腾讯混元大模型再进化，文生图能力重磅上线，这里是一手实测