文章主题:OpenAI, 新平台, AI图像生成, Midjourney
原标题:吊打Midjourney!OpenAI秘密内测新平台
作者 | 徐杰承
在尝试使用过Midjourney之后,我对该产品的兴趣已经荡然无存。这句话出自一位OpenAI新图像生成平台的内部测试者。这显然预示着OpenAI已经做好了一切准备,再次挑战AI图像生成的领域。
MattVidPro,一位知名的YouTuber,最近分享了一段令人兴奋的视频。据他透露,他的一个粉丝有幸获得了OpenAI新图像生成平台的内测资格,并分享了一些利用该平台创作的作品。为了展示这些令人惊叹的艺术作品,MattVidPro将其制作成了一期视频节目,并在开头说道:“今天,我们将一起探索AI生成图像的未来,领略这项技术的无限魅力。”
图源:Youtube
1、两大优势完胜Mj
MattVidPro在视频中透露,有粉丝透露,OpenAI正悄然测试一款全新的图像生成平台。这款平台有可能就是之前发布的文生图工具Dell-E 2的升级版。此次测试过程异常低调——用户需在OpenAI专属的仅容纳400人的服务器中体验该平台。
在经过一段时间的探索和实践之后,该粉丝得出了一个令人惊喜的结论:新平台不仅可以构建出包含头发、灯光、广告副本等详尽元素的逼真图像,同时在生成连贯细节和遵循提示词方面展现出卓越的能力。事实上,在一些任务执行效果上,新平台的表现甚至超越了目前人工智能生成图像领域最具知名度的Midjourney。
在连贯性细节方面,对于熟悉AI图像生成模型的专家来说,他们或许了解到,目前我国大部分模型尚无法精确地处理生成的图片中的文字内容。同样的问题也存在于Midjourney身上。举例来说,一个源自网络的案例是:“生成一支红色的铅笔,其上印有‘欢迎’的字样。”尽管Midjourney成功生成了红色铅笔,但在文字显示效果上,其表现可谓惨不忍睹。
图源:网络
然而,显而易见的是,OpenAI已经找到了应对此问题的策略。在MattVidPro展示的图片中,新平台在执行类似任务时展现出了令人惊叹的能力。无论是生成带有博主ID的海报,还是生成《GTA5》游戏盒子的全面版本,新平台都能轻松应对,且图像中的主体文字内容完全无误。
图源:Youtube
除了对于一些复杂提示词,OpenAI新平台所生成的图像内容相较于Midjourney来说,更加贴近于提示词的描述。我们从一个典型的例子来加以说明:想象一下,在一个充满雾气的森林中,一名身着粉红色服装的小丑正在与一只可爱的熊猫击掌。令人惊讶的是,这辆自行车竟然由奶酪制成,而地面则异常泥泞。在这个场景中,熊猫看起来非常生气。
在Midjourney提供的四幅图像中,只有一张图片中的熊猫没有骑行,其余三张都展示了没有包含奶酪元素摩托车而非自行车的座驾。此外,这四张图中都没有出现小丑的角色,而熊猫的表情也看似不存在愤怒的情绪。
图源:Youtube
而OpenAI平台在相同任务上的表现则无需多言,所生成作品包含了提示中的几乎全部细节。
图源:Youtube
看完以上案例,有人可能会说OpenAI新平台生成的图像似乎在真实度和画面细节方面并不出彩,甚至有些依靠“Q版”图耍小聪明的嫌疑。但这其实只是由于在提示中未规定画面风格的缘故。在生成写实图像方面,新平台的能力也完全不亚于目前的主流文生图工具。
图源:Youtube
图源:Youtube
在以上的两个案例中,我们不难看出,无论是油画风格图像“公牛”的画面质感和笔触细节,亦或是写实风格图像“水中少女”的光效、少女面部的水渍呈现等,两幅图像的逼真度和细节处理也均达到了业内顶尖水准。
2、或采用全新生成模型
除了图像以外,关于OpenAI正在测试的这个新图像生成平台,网上几乎没有出现其余的任何消息。但根据OpenAI于3月所发表的论文,不少专业人士推测,该平台很可能利用了全新的“一致性模型”而非目前业内主流的“扩散模型”。
图源:OpenAI
在这篇名为《Consistency Models》的论文中,OpenAI提到,一致性模型在训练速度上覆盖了扩散模型,能够“一步生成”,能够比扩散模型更快实现简单任务,且所用计算量要少10-2000倍。此外,一致性模型也允许“多步采样”,以计算换取样本质量。因此即使没有迭代过程,一致性模型也可以产生高质量结果,并能快速适用于实时任务。
图源:OpenAI
与扩散模型相同,一致性模型也支持零样本数据编辑。例如在修补、着色或超分辨率任务中,一致性模型可以从预先训练的扩散模型中提取数据,也可以单独进行训练。根据OpenAI的说法,一致性模型能在所有非对抗性单步生成任务中胜过扩散模型。
图源:OpenAI
并且以上所提到的两种训练方式都将“对抗训练”从中删除了。这是由于对抗训练过程较为复杂,虽然这更易于产生强大的神经网络,但对抗训练的方式也会导致模型预测的准确率下降。部分业内人士认为,这便是OpenAI新平台能够在处理连贯任务和遵循提示方面表现得更好的主要原因。
除此之外,一个没有太多依据的猜测是,在Dall-E 2发布的几个月前,OpenAI发表了几篇关于扩散模型的论文。如果从时间维度推测,新平台则很可能利用了全新的一致性模型。当然,以上这些也只是目前业内的普遍猜测,在OpenAI官方发声之前,估计我们也很难了解到更多关于该平台的技术细节。
3、还没有完全准备好
而对于OpenAI为何要如此隐蔽的对该平台进行测试,根据博主MattVidPro的说法以及几个相关的图片案例来看,目前该平台似乎仍未完成全部的开发工作,一些细节方面的问题依然有待进一步完善。
首先便是一直以来都困扰着生成模型的“画手”问题,虽然在大部分情况下表现还算不错,但新平台偶尔也会在生成人物手部细节时犯错误。例如在这张“打喷嚏的粉发少女”中,我们可以清晰地看到人物的手指被描绘成了六根。
图源:Youtube
除此之外,根据粉丝的透露,目前该平台还没有设置任何安全限制,能够生成包含血腥暴力、色情等敏感元素的图像,甚至有时一些敏感图像会在没有提示的情况下弹出。视频中,MattVidPro分享了一张相对委婉的生成图像,并表示一些“有点出格的作品”并不方便公开展示。
图源:Youtube
对于向来以追求极致而著称的OpenAI来说,显然目前该平台的部分能力以及安全性还没有达到他们最终所希望的水平。这也就可以解释为什么OpenAI会选择进行相对隐蔽的测试行为且没有进行对外的公开发声了。
4、赢者通吃:OpenAI的下一步
对于OpenAI的下一步计划,不少网友也在Youtube上留下了自己的观点。部分人认为,由于GPT4目前已具有了多模态信息处理能力,OpenAI很可能会基于新平台在下一版ChatGPT中集成强大的AI生成图功能。
另一部分人则认为,OpenAI也可能会基于新平台开发全新的AI生成图产品(或是Dall E-3),与Midjourney、Stable Diffusion等产品竞争并瓜分剩余市场,以进一步提升公司的盈利能力。毕竟目前ChatGPT的用户增长速率已达到了一个阶段性的瓶颈。
总之,虽然就目前看来,OpenAI的这个全新AI生成图平台仍需要进行一些微调以及安全功能的引入,但平台所流露出的信息已经在业内引起了一些积极的反响,并收获了比现阶段主流文生图产品更高的评价。有专家预测该平台或将在今年年底正式对用户开放。
图源:Youtube
不难看出,如今的科技巨头们在人工智能方面的追求已不再满足于单纯的语言模型,而是将攫取的枝杈伸展到了更广阔的领域。无论是OpenAI正在测试的全新AI生成图平台,亦或是Meta刚刚开源的文生音乐模型Audiocraft,都表明着人工智能的未来将在更丰富的模态上开花结果。返回搜狐,查看更多
责任编辑:
OpenAI, 新平台, AI图像生成, Midjourney
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!