文章主题:面向Stable Diffusion的自动Prompt工程算法, BeautifulPrompt, 自然语言处理, 图像生成

666AI工具大全,助力做AI时代先行者!

原题:探讨Stable Diffusion中自动Prompt工程算法的卓越之路——BeautifulPrompt在当今的数字时代,人工智能的应用已经渗透到各个领域。其中,Stable Diffusion作为一种先进的生成模型,吸引了大量研究者的关注。而在这个模型中,自动Prompt工程算法——BeautifulPrompt,更是以其独特的优势,成为许多人心中的宠儿。本文将深入剖析这一算法,展示其背后的魅力所在。首先,让我们来了解一下BeautifulPrompt算法的基本原理。它基于Stable Diffusion模型,通过自动生成的prompt,引导模型生成更加符合用户需求的内容。这种方法有效地降低了用户在搜索和筛选信息时的负担,同时也提高了信息的准确性和可靠性。其次,BeautifulPrompt算法采用了多种优化策略,使其在实际应用中表现更为出色。例如,它可以根据用户的反馈,实时调整prompt的生成策略,从而更好地满足用户的需求。此外,BeautifulPrompt还利用了深度学习技术,使得生成的prompt更具通用性和可扩展性。再次,除了提高生成内容的质量外,BeautifulPrompt算法还具有很高的效率。通过对模型进行优化,它可以实现更快的响应速度,为用户提供更快捷的信息服务。同时,BeautifulPrompt还可以与其他AI技术相结合,形成更为强大的生成体系,进一步拓展其在各领域的应用范围。最后,尽管BeautifulPrompt算法已经取得了显著的成果,但仍有许多挑战等待我们去攻克。例如,如何进一步提高生成内容的多样性和创新性,如何在保证信息准确性的前提下,实现更高效的生成等。这些问题都需要我们不断探索和研究,以便将BeautifulPrompt算法推向更高的境界。总之,作为Stable Diffusion中的自动Prompt工程算法,BeautifulPrompt以其卓越的性能和广泛的应用前景,成为了人工智能领域的一大突破。我们有理由相信,随着研究的深入,BeautifulPrompt将会为我们带来更多的惊喜,引领我们进入一个全新的信息时代。

近期,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作,在自然语言处理领域的顶级会议EMNLP2023上,成功发布了一项创新研究——BeautifulPrompt深度生成模型。该模型具备从简洁的图片描述中提取高质量提示的能力,进而推动文生图模型生成更为美观的图像。此外,BeautifulPrompt还针对低质量与高质量提示进行了精细调整,同时提出了一种结合强化学习及视觉信号反馈的技术,旨在最大化生成提示的奖励值。

论文: Tingfeng Cao, Chengyu Wang, Bingyan Liu, Ziheng Wu, Jinhui Zhu, Jun Huang. BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis. EMNLP 2023 (Industry Track)

背景

文生图(文生图)是人工智能生成对抗网络(AIGC)领域中备受瞩目且广泛应用的技术之一。其核心目标在于通过输入文本信息,生成高度逼真的图像。近期,得益于大型模型建模能力的不断提升,文生图模型得以迅速发展。一些大规模的文本到图像生成(TIS)模型,例如DALLE-2、Imagen和stable diffusion,极大地提升了顶级性能,使得非艺术专业的用户也能借助个人的想象力,创造出之前从未见过的独特图像。

然而,文成图模型所要求的用户预先编写的文本提示(如“一艘壮观的帆船”),对于设计师或艺术家来说,其难度犹如开启一个充满惊喜的盲盒。这主要源于训练数据质量的问题,使得生成的图像唯有通过详尽的描述,方能达到高质量的标准。在实际应用中,非专业人士往往难以独立完成这些提示的编写,同时还需要通过反复尝试和修正,才能够重新生成图像,这就导致了宝贵的时间和计算资源的巨大消耗。

提示工程(prompt engineering)作为一项新兴研究领域,致力于研究如何为深度生成模型提供有效提示,从而提升人机互动的效率。在此背景下,我们关注于大型语言模型(LLM)自动生成的优质提示词,图示 below 呈现了在简洁图片描述与 BeautifulPrompt 引导下产生的图片示例。

算法概述

数据收集

我们提出一个自动化收集prompt优化的数据集方案:

作为一篇具有高度专业性的文章,我会重新组织原文内容,使其表达更为准确和丰富。原始数据源为DiffusionDB,其仅包含未配对的提示。为了对这些提示进行有效分类,我们采用了启发式的方法,根据提示的长度以及其中所包含的特定标签等因素,将它们划分为低质量提示和高质量提示两个类别。

接下来,我们

i) 使用BLIP 对与高质量提示相关的图像进行caption,并将结果视为相应的低质量提示,因为说明文字较短且缺乏细节;

ii) 使用ChatGPT对高质量的提示进行总结,并将总结视为低质量的提示;

iii) 使用ChatGPT从低质量的提示生成更好的提示;结果被认为是高质量的提示。

通过以上三种方法,我们获得了大量的提示对;然而,这些提示对的质量无法保证。因此,我们需要进行进一步的数据清理和过滤。我们清洗了包含色情、政治敏感等不适合工作场景的数据,并对图片的美观值进行筛选。得到最终的数据集。与InstructGPT类似,我们采用了三阶段的训练,整体训练架构图如下:

Step 1. SFT

Step 2. RM

我们基于PickScore 和 Aesthetic Score来训练奖励模型。

简单地说,PickScore是一个基于文本到图像提示和真实用户偏好的大型数据集训练的偏好模型,它在预测人类对图像的偏好方面表现出超人的表现。我们计算低质量提示和相应高质量提示生成的图像的PickScore。为了减少随机种子对TIS模型生成的图像质量的影响,我们使用8种不同的随机种子生成图像并对结果进行平均。计算的平均PickScore 被用作训练奖励模型的基础真相。损失函数为:

Step 3. PPO(RL)

算法评测

为了验证BeautifulPrompt的有效性,我们在一些基于模型打分的客观指标和人类主观评估上做了实验:

我们也对算法的模块进行了详细有效性分析,我们可以算法的各个流程都是有效的。

为了更好地服务开源社区,BeautifulPrompt算法的源代码即将贡献在自然语言处理算法框架EasyNLP中,欢迎NLP从业人员和研究者使用。

EasyNLP开源框架:https://github.com/alibaba/EasyNLP

参考文献

Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022 Stiennon, Nisan, et al. “Learning to summarize with human feedback.” Advances in Neural Information Processing Systems 33 (2020): 3008-3021 Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022 Kirstain, Yuval, et al. “Pick-a-pic: An open dataset of user preferences for text-to-image generation.” arXiv preprint arXiv:2305.01569 (2023)

论文信息

论文标题:BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis

论文作者:曹庭锋、汪诚愚、刘冰雁、吴梓恒、朱金辉、黄俊

论文pdf链接:https://arxiv.org/abs/2311.06752

原文链接:https://developer.aliyun.com/article/1390710?utm_content=g_1000385401

本文为阿里云原创内容,未经允许不得转载。返回搜狐,查看更多

责任编辑:

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注