stablediffusion：图像生成的魅力与挑战

文章主题：stable diffusion, text2img, img2img, DALL-E

近期，各大平台纷纷涌现出stable diffusion技术的实际应用案例，无论是text2img还是img2img的转换，都呈现出令人瞩目的视觉效果。

尽管功能相似的DALL-E已经在市场上存在相当长的时间，甚至在性能上更为优越，然而，与DALL-E相比，stable diffusion模型的开源影响力和价值却是不可忽视的。就像投入水中的一颗石子引发连串的涟漪效应，催生了众多新的服务和网站，这种现象让人惊讶不已：为何它会如此火爆呢？

huggingface权限申请

Stable Diffusion模型已在Hugging Face上正式开源并发布，其主页详细介绍了如何使用这些模型。然而，这类生成式模型的潜在滥用风险需要注意。因此，我们建议您先在Hugging Face上注册个人账号，然后申请相关权限，方可直接使用这些强大的模型。

注册账号后，在https://huggingface.co/settings/tokens可以得到对应的tokens，然后本地huggingface-cli login后输入，就可以愉快的使用stable diffusion的相关模型了。如果没有token，代码运行会报错：

requests.exceptions.HTTPError: 403 Client Error: Forbidden for url: https://huggingface.co/api/models/CompVis/stable-diffusion-v1-2/revision/main (Request ID: 95rKMncm_EoF-0t_W39_F)

另外Access repository后，就可以下载模型了。

依赖库安装

huggingface中所提供的示例代码，所依赖的是diffusers这个库，访问这个库的GitHub地址：https://github.com/huggingface/diffusers，官方的说法是pip安装就可以。

在实际测试中，我们发现PIP默认安装的版本为0.1.2，而非推荐版本0.2.4。此外，即便强行安装了0.2.4，img2img和in-painting所依赖的类也并未在該包中出現。因此，我們建議您通過克隆GitHub庫至本地，並利用python3 setup.py install進行安裝，以實現更佳的效果。

text2img测评

简单测评下text2img的功能：输入一段text文字，模型会基于这段描述性文字生成图像img。

代码使用官方提供的示例就可以，由于模型已经下载，因此将路径指定为模型地址即可：

# make sure youre logged in with `huggingface-cli login` from torch import autocast from diffusers import StableDiffusionPipeline pipe = StableDiffusionPipeline.from_pretrained(/stable-diffusion-v1-4) prompt = “a photo of a flying dog” image = pipe(prompt, guidance_scale=7.5)[“sample”][0] image.save(“/test.png”)

其中pipe的结构如下：

# pipe结构 >>> pipe StableDiffusionPipeline { “_class_name”: “StableDiffusionPipeline”, “_diffusers_version”: “0.2.4”, “feature_extractor”: [ “transformers”, “CLIPFeatureExtractor” ], “safety_checker”: [ “stable_diffusion”, “StableDiffusionSafetyChecker” ], “scheduler”: [ “diffusers”, “PNDMScheduler” ], “text_encoder”: [ “transformers”, “CLIPTextModel” ], “tokenizer”: [ “transformers”, “CLIPTokenizer” ], “unet”: [ “diffusers”, “UNet2DConditionModel” ], “vae”: [ “diffusers”, “AutoencoderKL” ] }

随意测试了一些prompt的生成效果如下：

a photo of a flying dog

a photo of an astronaut riding a horse on moon

a photo of a smiling Chinese women

a photo of a smiling American women

在众多图像生成效果中，多数呈现出令人满意的效果。然而，有一部分图像，尤其是那些针对中国女性生成的图像，却引发了争议。这让人怀疑是否存在对亚洲人特征的歧视问题。

在线资源

除了通过本地下载模型调试代码，stable diffusion还有很多开源的服务，便于做快速测试。以https://huggingface.co/spaces/stabilityai/stable-diffusion 为例，同样可以输入一句prompt生成图像，不过由于资源紧张需要排队使用，排队时间也可能比较长。

这里同样测试了几个prompt，效果如下：

a photo of a smiling Chinese women

a robot reading the book and playing the piano

嗯，看起来训练数据的眯眯眼问题是没跑了。

此外，还有一个开源的prompt网站：https://lexica.art/，可以提供参考的prompt用于生成图像，支持DALL-E，stable diffusion等模型。

目前，Stable Diffusion的相关服务尚不健全。在此，我们摘录了部分DALL-E的提示以及相应的图像示例，以供参考。

ultra nekopara fantastically detailed reflecting eyes modern anime style art cute detailed ears cat girl neko dress portrait shinkai makoto vibrant Studio ghibli kyoto animation hideaki anno Sakimichan Stanley Artgerm Lau Rossdraws James Jean Marc Simonetti elegant highly detailed digital painting artstation pixiv cyberpunk

a hyperdetailed matte painting of a german romantic tree emerging from an oceanographic landscape, magic realism painting, trending on artstation

小结

人工智能喊得这些年，除了被吐槽人工智障外，自动驾驶看着还是有些远，下围棋也终究是少数人的爱好，但是目前stable diffusion代表的图像生成，倒是第一个如此贴近大众生活的应用，很有成为UGC工具的潜力。

欢迎关注我的公众号“言木木的佳常菜” 相关文章会在公众号第一时间发布，知乎同步更新~

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关资源

huggingface权限申请

依赖库安装

text2img测评

在线资源

小结

发表回复取消回复

相关资源

huggingface权限申请

依赖库安装

text2img测评

在线资源

小结

相关文章

发表回复 取消回复

发表回复取消回复