《清华团队揭秘商用多模态大模型的漏洞：GPT-4V、谷歌Bard攻击实验》

文章主题：清华团队, GPT-4V, 商业多模态大模型, 对抗鲁棒性

原标题：清华团队攻破GPT-4V、谷歌Bard等模型，商用多模态大模型也脆弱？

机器之心专栏

机器之心编辑部

GPT-4近期推出了视觉模式（GPT-4V），这是一款具有重大突破的多模态大型语言模型（MLLMs），它能够将文本和视觉等多种模态融合在一起，从而在图像描述、视觉推理等多模态任务中展现出卓越的性能。然而，视觉模态一直存在着对抗鲁棒性较差的问题，这在引入视觉模态的MLLMs的实际应用中仍然是一个潜在的安全风险。最近，一些针对开源MLLMs的研究已经揭示了这个问题，但是对非开源商用MLLMs的对抗鲁棒性问题却鲜有关注。

为深入剖析商用机器学习模型（MLLM）的安全漏洞，我国清华大学朱军教授领导的人工智能基础理论创新团队，针对商用MLLM的对抗鲁棒性进行了深入研究。尽管诸如GPT-4V、谷歌Bard等模型已经开放了多模态接口，但它们的内部模型结构和训练数据集依然神秘，且其防御机制也相当复杂。然而，研究者们发现，即使面对这些挑战，通过攻击白盒图像编码器或MLLM，仍能生成对抗样本，进而诱使黑盒的商用MLLM输出错误的图像描述。对于GPT-4V的攻击成功率高达45%，Bard的攻击成功率为22%，Bing Chat的攻击成功率为26%。此外，团队还发现，对抗攻击能够有效绕过Bard等模型对人脸检测和图像毒性检测等防御机制，从而导致模型存在安全风险。

论文链接：

https://arxiv.org/abs/2309.11751

代码链接：

https://github.com/thu-ml/ares/tree/attack_bard

图 1：对抗攻击多模态大模型示例，可以使模型产生错误预测或者绕过安全性检测模块

图示揭示了针对Bard的攻击性测试结果。在提供自然样本图片的情况下，Bard能够准确地识别出其中的主体（例如，“一个熊猫的脸”）。然而，在输入对抗样本图片时，Bard却将图片中的主体错误地分类为“一个女人的脸”。这表明Bard模型在处理对抗样本时存在一定的误判现象，需要进一步优化和改进。

对抗攻击方法

MLLMs 通常使用视觉编码器提取图像特征，然后将图像特征通过对齐后输入大语言模型生成相应的文本描述。因此该研究团队提出了两种对抗攻击 MLLMs 的方法：图像特征攻击、文本描述攻击。图像特征攻击使对抗样本的特征偏离原始图像的特征，因为如果对抗样本可以成功破坏图像的特征表示，则生成的文本将不可避免地受到影响。另一方面，文本描述攻击直接针对整个流程进行攻击，使生成的描述与正确的描述不同。

图像特征攻击：令表示自然样本，表示替代图像编码器的集合，则图像特征攻击的目标函数可以表示为：

在优化过程中，我们致力于在最大程度地提升对抗样本x与自然样本图像特征之间的差距的同时，确保两者之间的距离不超过一定的扰动规模。

文本描述攻击：令表示替代 MLLMs 的集合，其中可以在给定图片 x ，文本提示 p 以及之前预测的词时，预测出下一个词的概率分布，表示为

。因此，文本描述攻击可以表述为最大化预测目标句子的对数似然：

值得关注的是，文本描述攻击是有针对性的，其目的在于对特定目标句子进行攻击，而非试图降低真实描述的对数似然性，这主要是因为对于图像的多种正确描述存在。

为解决上述对抗样本的优化问题，研究者们采取了自制的具备最高迁移性的对抗攻击手段——Common Weakness Attack（CWA）[1]。

数据集：在 NIPS17 数据集 [2] 中随机选取 100 张图片作为自然样本。

在本研究中，我们采用了多种替代模型来应对图像特征攻击和文本描述攻击。具体而言，对于图像特征攻击，我们选择了ViT-B/16、CLIP和BLIP-2这三种图像编码器作为替代模型；而对于文本描述攻击，则采用了BLIP-2、InstructBLIP以及MiniGPT-4这三款模型。通过引入这些替代模型，我们可以更全面地评估和抵抗各种类型的攻击，从而提高系统的安全性和稳定性。

在评价指标方面，我们主要关注图像中主体的误判情况，以此作为衡量攻击成功与否的关键。我们坚信，只有在图像中的主体被错误地识别出来时，此次攻击才能被视为成功。而那些导致误判的其他因素，例如虚幻的细节、物体的数量、颜色以及背景等，都被视为攻击失败的原因。

下图分别展示了针对 GPT-4V、Bard、Bing Chat 上对抗样本攻击成功的示例。

图 2：攻击 GPT-4V 示例，将羚羊描述为手。

图 3：攻击 Bard 示例，将大熊猫描述为女人的脸

图 4：攻击 Bing Chat 示例，将白头雕识别为猫和狗

图 5：攻击文心一言示例，将咖啡识别为手表

下表中展示了上述方法针对不同商用模型的攻击成功率。可以看到，Bing Chat 存在很大的几率拒绝回答带有噪声的图像。整体上谷歌 Bard 的鲁棒性最好。

表 1：针对商用多模态大模型的攻击效果

针对 Bard 防御机制的攻击

在该研究团队对 Bard 的评估中，发现 Bard 部署了（至少）两种防御机制，包括人脸检测和毒性检测。Bard 将直接拒绝包含人脸或有毒内容的图像（例如，暴力、血腥或色情图像）。这些防御机制被部署以保护人类隐私并避免滥用。然而，对抗攻击下的防御鲁棒性是未知的。因此，该研究团队针对这两种防御机制进行了评估。

人脸检测器攻击：为了使 Bard 的人脸检测器无法识别到对抗样本中的人脸并输出带有人脸信息的预测，研究者针对白盒人脸检测器进行攻击，降低模型对人脸图像的识别置信度。攻击方法仍然采用 CWA 方法，在 LFW 和 FFHQ 等数据集上进行实验。

下图为人脸对抗样本在 Bard 上攻击成功的示例。总体上对 Bard 人脸检测模块的对抗攻击成功率达到了 38%，即有 38% 的人脸图片无法被 Bard 检测到，并输出对应的描述。

图 6：攻击 Bard 的人脸检测模型

毒性检测器攻击：为了防止提供对有毒图像的描述，Bard 采用毒性检测器来过滤掉此类图像。为了攻击它，需要选择某些白盒毒性检测器作为替代模型。该研究团队发现一些现有的毒性检测器是预训练视觉模型 CLIP 上进行微调得到的。针对这些替代模型的攻击，只需要扰动这些预训练模型的特征即可。因此，可以采用与图像特征攻击完全相同的目标函数。并使用相同的攻击方法 CWA。

该研究团队手动收集了一组 100 张含有暴力、血腥或色情内容的有毒图像，对 Bard 的毒性探测器的攻击成功率达到 36%。如下图所示，毒性检测器不能识别具有对抗性噪声的毒性图像。因此，Bard 为这些图像提供了不适当的描述。该实验强调了恶意攻击者利用 Bard 生成有害内容的不合适描述的可能性。

图 7：攻击 Bard 的毒性检测模型

讨论与总结

上述研究表明，通过使用最先进的基于迁移的攻击来优化图像特征或文本描述的目标，目前主流的商用多模态大模型也会被成功的欺骗误导。作为大型基础模型（例如，ChatGPT、Bard）已经越来越多地被人类用于各种任务，它们的安全问题成为公众关注的一个大问题。对抗攻击技术还可以破坏 LLM 的安全与对齐，带来更加严重的安全性问题。

此外，为保证大模型的安全性，需要针对性进行防御。经典的对抗训练方法由于计算成本较高，应用于大规模预训练模型较为困难。而基于图像预处理的防御更适合于大模型，可以通过即插即用的方式使用。一些最近的工作利用了先进的生成模型（例如，扩散模型）以净化对抗扰动（例如，似然最大化 [3]），这可以作为防御对抗样本的有效策略，但是总体来说如何提升大模型的鲁棒性和抗干扰能力，仍然是一个开放的问题，尚有很大的探索和提升空间。

相关文章

发表回复 取消回复

发表回复取消回复