机器之心原创
编辑:蛋酱、杜伟
2023 年,大模型的落地按下加速键,文生图便是最火热的应用方向之一。自从 Stable Diffusion 诞生以来,海内外的文生图大模型不断涌现,一时有「神仙打架」之感。每一次技术迭代,都带来了模型生成效果和速度的飞速提升。就在今天,腾讯混元大模型也宣布了最新进展:文生图能力正式上线。一上手试用,我们就看到了混元大模型对于博大精深的中餐文化的理解。这里选取了让很多大模型犯难的「蚂蚁上树」,但混元轻松生成:
在《泊船瓜洲》这首诗中,一句「春风又绿江南岸,明月何时照我还」,写出了无数游子的乡愁。混元的生成结果,提取出「春光」、「水岸」、「明月」等意象进行有机组合,让人看到之后仿佛置身诗句场景之中:
然后是有趣的「中国菜绘画」环节,来一道「鱼香肉丝」经典考题吧:
从让人 san 值狂掉的中餐绘画,到现在看图下饭的水准,我们也能感受到文生图技术的不断进化。接下来看看在业界公认的「人像真实感」难题上,混元做得如何:我们知道最初 Midjourney 爆火,就是因为下面这张情侣照片,让人无法分辨这竟然无 AI 生成的。
用 midjourney v5 生成的情侣图现在,我们考察一下混元大模型生成「照骗」的能力。使用的 Prompt 是:
你觉得真实感如何?在我们看来,Prompt 中提到的细节拉满。这也就是腾讯重点强调的:混元大模型通过优化算法提升了对细节的感知能力与生成效果。这种能力,在很多具体的场景中才得以体现。例如在动画场景中,生成「一头小鹿在森林中奔跑、带动落叶飞起、月亮很亮很大、小鸟在空中飞翔,氛围感,CG 风格,侧面视角」。 
是不是特别像是小时候看的动画中的画面?此外,在动漫创作中,文生图应用潜力巨大。我们给到混元大模型的 Prompt 是「生成 3D,动漫风格,1 个女孩,金色头发,微笑,短发,城市背景」:
你觉得生成效果如何?是不是可以直接拿来当壁纸了?文生图背后,有哪些自研技术?工欲善其事,必先利其器,对于大模型同样如此。我们了解到,除了创新模型算法,腾讯混元大模型实现这样接中文地气的文生图效果,其背后还离不开高质量的图文匹配数据、自研的机器学习框架以及强大的算力基础设施。腾讯混元大模型已经形成了从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术路径。多层次的技术沉淀,意味着大模型的进化需要一步一个脚印,从实践出发,在实践中提升。首先来看支撑模型训练的数据工程。对于任何 AI 特别是大模型而言,数据都是不可或缺的三大要素之一。大模型文生图功能亦是如此,图文数据尤其是图文之间的匹配数据对生成效果的影响举足轻重。但是网络上已有数据并不是都能拿来即用的,其中很大的问题是文字对图片的描述不一定准确,这就导致大多数图文匹配数据质量比较差。如果拿来用,即使训练时间很长,模型生成效果依然达不到预期,也会影响生成质量的稳定性和后续的迭代效率。因此,提升图文数据质量成为保证文生图效果的「第一道关」。这时候往往需要通过工程化的方式提升数据质量,支撑模型训练、优化和升级,构筑算法模型的护城河。面对图文匹配数据问题,腾讯混元文生图团队的应对策略是这样的:首先细粒度地完善中文 prompt,提升图文相关性,最大化数据质量;然后采取训练数据分层、分级的策略,逐步优化模型,最大化数据效果;最后建设数据飞轮,它是大模型快速迭代的关键。团队基于线上用户使用大模型的反馈,自动化构建训练数据,加快模型迭代,最大化数据效率。数据质量、效果和效率提上去了,这就为良好的文生图效果打下了基础。而接下来要讲的机器学习框架同样重要。强大的机器学习框架或平台会极大地提升开发者构建、训练和部署模型的速度和效率。腾讯针对大模型训练和推理场景,自研了 Angel 机器学习平台,主要包括负责训练的 AngelPTM 和负责推理的 AngelHCF 两大部分。其中 AngelPTM 采用 ZeRO-Cache 优化策略,成为超大模型训练利器,它通过存储管理扩大单机模型容量,通过多流异步提高资源利用率,通过显存管理提高显存效率。此外利用 4D 并行提高可用显存上限,减少千卡通信压力,释放计算潜能。自动续训机制支持千卡故障自动容错,减少中断时间。模型训练情况也在实时监控之下,协同算法优化模型训练方向。目前,AngelPTM 基于业界首创的 ZeRO-Cache 机制 + 4D 并行实现了千亿混元基座模型的高速训练,训练速度相比主流开源框架(DeepSpeed-Chat)提升 1 倍。
ZeRO-Cache 概图。AngelHCF 主要从定制多样化服务策略、并行策略、框架加速(覆盖常用 GPU 加速方法)、模型压缩(支持业界常用压缩方法)和高效模型 Debug 能力五个层面提升大模型的推理性能。推理速度相比业界主流框架(FasterTransformer)提升 1.3 倍。腾讯表示,其 Angel 机器学习平台具备了领先性能,能够帮助提供更好的基建体系,助力大模型们高速运行。这使得混元大模型生成高质图片的同时,生成速度也大大改进。拥有了高质量的数据、高效的机器学习框架,大模型的持续运行还面临着算力层面的考验。毕竟,大模型时代,算力为王。腾讯混元文生图功能离不开腾讯云提供的强大算力基础设施。2023 年 4 月,腾讯云发布新一代 HCC 高性能计算集群,采用最新一代星星海自研服务器,并基于自研网络和存储架构,实现了 3.2T 超高互联带宽、TB 级吞吐能力和千万级 IOPS。新一代集群算力性能较前代提升了 3 倍,较传统算力集群方案提升 12 倍以上。© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com


