文章主题:丰富的内容市场, AI的画笔, 图像生成
丰富的内容市场,还是千篇一律的审美取向,AI的画笔将指向何方?
文 |动点科技
编译|郑惠敏
排版|沈睿璠
本文预计阅读时长7分钟
自生成式AI登场以来,工业革命的奇景每天都在上演。
在图像领域,近期,众多企业和高校纷纷推出重量级模型,为人们带来了令人震撼的视觉体验。最初,AI绘画技术让人类艺术家感受到了被替代的威胁,但随着此类技术的不断发展和多样化,AI绘画也开始出现内部竞争加剧的现象。各种新兴”新神”不断涌现,取代了曾经的领军人物,形成了”遍地是大王,短暂且辉煌”的局面。
实现五倍文生图效率提升
近期, Meta 公司发布了一款新型人工智能模型——CM3Leon(发音类似于“变色龙”)。这款模型的功能非常强大,不仅能够根据文本内容生成超高分辨率的图像,还能根据图像生成相应的文本描述。此外,它还能够根据文本指令对图像进行编辑,实现对图像的精准操作。可以说,CM3Leon的出现标志着人工智能技术在图像处理领域的重大突破。
CM3leon的训练方式采用了经过调整仅仅依赖于文本语言模型的方法,这种方法既简洁又有效,能够生成出强大的模型。具体而言,基于tokenizer(分词器)的transformer模型与现有基于Diffusion(扩散)的生成模型一样,可以在训练过程中展现出相同的效果。
即使只在一个只有30亿文本符号的数据集上进行训练,CM3leon的零样本性能与在更广泛的数据集上训练的较大模型相比也不逊色。
Meta表示,CM3leon的计算量比Stable Diffusion、Midjourney等基于Diffusion的模型少了五倍,但它却在文本到图像生成方面实现了最先进的性能,在视觉问答和长篇说明等各种视觉语言任务中表现出色。例如,CM3leon可以处理更复杂的prompt,在文本引导下编辑图片中天空的颜色,在图片中房间的特定位置添加水槽和镜子等物体。
在对最广泛使用的图像生成基准测试(零样本MS-COCO)的性能进行比较时,CM3leon的FID(Fréchet Inception Distance,用来计算真实图像与生成图像的特征向量间距离的一种度量,FID值越小则相似程度越高)值为4.88,在文本到图像生成方面确立了新的SOTA(state of the art,最先进的技术水准),优于Google的Parti(FID 7.23)、Stable Diffusion(FID 8.32)、OpenAI的DALL-E2(FID 10.39)等一系列知名文生图模型。这一成就突显了检索增强的潜力,并凸显了扩展策略对自回归模型性能的影响。
CM3leon是一款集多功能性和有效性于一身的人工智能技术,它在保持低训练成本和高效推断能力的同时,具备了因果掩码混合模态的特点。这一特性使得CM3leon能够生成基于不同图像和文本内容序列的文本和图像序列,从而极大地拓展了先前仅支持文本到图像或仅支持图像到文本的模型的应用范围。
在业内,普遍认为CM3leon已经成功站在多模态市场的顶峰。Meta公司对此表示,CM3Leon在图像生成与理解领域取得了显著的突破,但同时也认识到该模型可能存在数据偏差的问题,因此呼吁整个行业共同努力提高透明度并加强监管。
计算机视觉迎来GPT-4时刻
图像分割作为计算机视觉领域的一个重要组成部分,对于图像理解和处理起着关键性的作用。它在自动驾驶、无人机、工业质检以及病理影像分割等多个领域都具有显著的价值和重要性。
随着深度学习技术的兴起,早期依靠亮度、颜色和纹理等低级特征的图像分割方法逐渐被淘汰,基于神经网络的图像分割方法取得了巨大的突破——通过训练深度神经网络,可以学习到更高层次、更抽象的特征表示,从而能够更准确地进行图像分割。
今年4月,Meta发布了首个基础图像分割模型SAM(即Segment Anything Model,分割一切模型),以及对应的数据库SA-1B,瞬间引爆了AI圈。SAM是面向通用场景的图像分割模型,可用于任何需要对图像进行识别和分割的场景,基于prompt工程,可以成为内容创作、AR/VR、科学领域或通用AI系统的组件,实现多模态处理。
SAM大大提升了普通CV模型的图像分割能力,对于未知和模棱两可的场景也能实现较好的图像分割效果,有望大幅降低计算机识别门槛。英伟达AI科学家JimFan曾表示“SAM是计算机视觉领域的GPT-3时刻”。
但仅仅3个月后,SAM的地位就受到了挑战。
最近,香港科技大学团队开发出一款比SAM更全能的图像分割模型,名为Semantic-SAM。Semantic-SAM可以完全复现SAM的分割效果并达到更好的粒度和语义功能, 并支持通用分割(全景、语义、实例分割)、细粒度分割、具有多粒度语义的交互式分割、多粒度图像编辑等广泛的分割任务及其相关应用。
此外,Semantic-SAM在粒度丰富性、语义感知性、多功能等方面优势明显,完胜Meta的SAM:只需单击一下即可输出多达6个粒度分割,与SAM相比,更可控地匹配用户意图,无需多次移动鼠标寻找想要分割的区块。
仅对图像进行分割已无法满足AI研究人员们的野心。视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但SAM无法处理视频分割任务。
近日,来自苏黎世联邦理工学院、香港科技大学、瑞士洛桑联邦理工学院的研究人员突破了上述局限,其发布的SAM-PT模型将SAM的零样本能力扩展到动态视频的跟踪和分割任务上,在多个视频物体分割数据集基准中取得了稳定且强大的零样本性能。
AI绘图的另一面
继不断更新Zoom Out(平移)、Pan(扩展)等新功能后,Midjourney最新的V6版本也将会在本月内发布。日前,AI绘图独角兽Stable Diffusion也推出了一项素描转图像的服务Stable Doodle。
对于内容创作者等C端用户来说,AI作图工具的迭代与进化带来的高精度、高质量的内容赋予了更优质的体验和更多元的选择;借助AI内容生成和图像分割/识别模型,可穿戴设备的AR/VR人机交互效率和使用体验将得到显著提升,工业、自动驾驶、医疗等领域的工作效率、识别的精准度也将大幅提升。
但在此良夜之中,仍匍匐着一些被遮盖的隐患。
随着模型的不断更新和迭代,用户的绘画或图像数据可能会被上传到云上的服务器,或被用于训练更为先进的模型,导致一些隐私与版权问题;同时,无限制的AI制图也正被用于基于真实人物的色情图片的制作,试探着法律的底线。
AIGC不断变革内容生产模式的同时也影响着内容的消费方式,更新奇更惊艳的生成内容带来的刺激转瞬即逝。在无数次输入文字描述的选择中、在回声效应的不断固化下,AI的画笔究竟会创造出无比丰富的内容市场还是千篇一律的审美取向,答案令人担忧。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!