文章主题:多模态大模型, 能力测评, Bard, 视觉输入
原标题:多模态大模型能力测评:Bard 是你需要的吗?
机器之心专栏
机器之心编辑部
为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、香港大学、北京大学、香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny LVLM-eHub。在ChatGPT之后,OpenAI的直播活动展示了GPT-4在处理视觉输入方面的强大能力,尽管这种视觉输入技术目前还没有广泛应用。紧接着,学术界和工业界都将焦点转向了多模态大型模型(主要集中在视觉语言模型领域),例如学术界的LLaMA-Adapter和MiniGPT-4,以及谷歌 representative的Bard,而Bard已经在竞争中占据了主导地位,并已向大规模用户提供服务。然而,学术界发布的模型在部分多模态能力(特定数据集)上进行了评估,并且在真实用户体验方面的性能对比方面也存在不足。值得注意的是,Bard在开放视觉输入后,并未提供关于多模态能力的正式报告。
在这个特定的情境下,我们首先构建了一个全面评估多模态大模型能力的框架——LVLM-eHub,该框架融合了六大类多模态能力,几乎覆盖了所有多模态场景。此框架共整合了47个相关数据集,为评估提供了丰富的数据支持。此外,我们还建立了一个人工智能助手间的能力对比众包式用户评测平台——多模态大模型竞技场,让真实用户能够提出问题并进行投票,判断哪个模型表现更优。
LVLM-eHub 论文地址:
https://arxiv.org/abs/2306.09265
Multi-Modality Arena是一个由OpenGVLab团队开发的创新项目,旨在为多模态数据处理提供一个高效的平台。该项目基于深度学习技术,能够实现多种模态数据的融合与分析,从而为相关领域的研究提供有力支持。您可以在项目的GitHub页面上找到更多详细信息和使用案例:https://github.com/OpenGVLab/Multi-modality-Arena
项目网址:
http://lvlm-ehub.opengvlab.com/
在此基础上,我们对每一个数据集进行了精简,将其中的样本数量减少至50个(采用随机采样策略),从而推出了Tiny LVLM-eHub。这一举措旨在促进模型的快速评估和迭代过程。此外,我们还设计了一种更为精确、稳健且与人机评估结果更为契合的评估方法,该方法整合了多种评估提示词,并以多数表决的方式对ChatGPT的评估结果进行集成。最后,我们在模型中融入了更多多模态的大模型,其中谷歌的Bard表现尤为突出。
Tiny LVLM-eHub 论文地址:
https://arxiv.org/abs/2308.03729
“Multimodal Chatbot Arena”是一个由开放获取实验室(OpenGVLAB)提供的在线平台,旨在为多模态聊天机器人的研究和应用提供一个交流和竞技的场所。该平台集成了多种自然语言处理技术,包括语音识别、语义理解和生成等,为用户提供更加智能和自然的交互体验。在这里,研究人员和开发者可以分享自己的研究成果,也可以与其他人进行深入讨论和合作,共同推动多模态聊天机器人技术的发展。
多模态能力与数据集
我们整合了 6 大类多模态能力:
a. 视觉感知(visual perception)
b. 视觉信息提取(visual knowledge acquisition)
c. 视觉推理(visual reasoning)
d. 视觉常识(visual commonsense)
e. 具身智能(Embodied intelligence)
f. 幻觉(Hallucination)
在前两类任务中,关注的是基础感知能力。随着层次的提升,第三类任务涉及到了更高层次的推理能力。而最后一类任务则是在大模型接入机器人之后,需要实现更高级别的计划和决策能力。此外,在大语言模型(LLM)上,这些任务同样具有挑战性和复杂性,尤其是在处理幻觉问题上更为突出。
具身智能作为大模型技术的应用与扩展,具有巨大的发展潜力和前景。目前,学术界和产业界都在积极探索这一领域,其研究和发展仍在不断推进。然而,在大模型应用的过程中,幻觉问题成为了一个巨大的风险点,需要进行大量的研究和评估,以便于未来的改进和优化。因此,对于具身智能和大模型技术的研究,我们需要保持谨慎并投入更多的精力。
六大多模态能力结构图
多模态大模型竞技场
多模态大模型竞技场是一款独特的众包式用户评测平台,它致力于通过模型间的对比来衡量各自的能力。相较于传统的数据集刷点方式,这种模式更能真实地反映出模型的用户体验。在该平台上,用户可以上传图片并提出相关问题,接着平台会从后台的模型库中随机抽取两个模型来回答这些问题。这两个模型将会分别给出自己的答案,然后用户可以根据这些答案进行投票,选择表现出色的模型。为了确保公平性,我们承诺每个模型被采样的机会都是平等的,并且只有在用户投票结束后,才会揭示被采样模型的名字。流程示例如下所示。
多模态大模型竞技场示意图
评估方法
评估方法示意图
LVLM-eHub 默认使用 word matching(只要真实答案出现在模型输出中,即判断为正确)来做快速自动评估。特别地,对于 VCR 数据集,为了更好地评估模型性能,我们采用了 multi-turn reasoning 评估方法:类似 least-to-most 提示方法,首先经过多轮的 ChatGPT 提出子问题和待评估模型给出回答,最后再回答目标问题。另外对于具身智能,我们目前完全采用人工的方式,从 Object Recognition、Spatial Relation、Conciseness、Reasonability 和 Executability 五个维度进行了全方位评估。
多提示词投票评估方法
Tiny LVLM-eHub 设计并采用了多提示次投票评估 评估方法,可以克服词匹配评估方法的缺陷,具体来说,词匹配在以下两个场景下都会失效:(1)模型输出中可能出现包括真实答案在内的多个答案;(2)模型输出与问题的参考答案在语义上是相同的,只是表述不同。
基于 ChatGPT 的多指令集成评估方法示意图
另外我们通过实验(结果见下表)发现我们提出的评估方法与人类评估结果更加一致。
CEE 评估方法和词匹配方法与人类评估一致性的比较
评估结果
在传统标准数据集(除了具身智能的其他 5 大类多模态能力)上,评估结果显示 InstructBLIP 表现最佳。通过对比模型训练数据集之间的差异,我们猜测这很可能是因为 InstructBLIP 是在 BLIP2 的基础上再在 13 个类似 VQA 的数据集上微调得到的,而这些微调数据集与上述 5 类多模态能力相应的数据集在任务和具体数据形式和内容上有很多相同点。反观在具身智能任务上,BLIP2 和 InstructBLIP 性能最差,而 LLaMA-Adapter-v2 和 LLaVA 表现最好,这很大程度上是因为后者两个模型都使用了专门的视觉语言指令遵循数据集进行指令微调。总之,大模型之所以在众多任务上泛化性能很好很大程度上是因为在训练或微调阶段见过相应任务或者相似数据,所以领域差距很小;而具身智能这种需要高层推理、计划乃至决策的任务需要 ChatGPT 或 GPT-4 那种逻辑性、计划性和可执行性更强的输出(这一点可以在下面 Bard 的评估结果上得到印证:Bard 的具身智能能力最好)。
LVLM-eHub 中八大模型在六大多模态能力上的性能图
截止目前,我们在多模态大模型竞技场平台收集了 2750 个有效样本(经过过滤),最新的模型分数和排名见下表。从真实用户体验上来看,InstructBLIP 虽然在传统标准数据集(除了具身智能的其他 5 大类多模态能力)上表现最好,但在 Elo 排名欠佳,而且 BLIP2 的用户评价最差。相应地,在经过 ChatGPT 优化过的指令遵循数据集上微调之后,模型输出更受用户青睐。我们看到,在高质量数据上指令微调后的模型 Otter-Image 居于榜首,在 Otter 模型的基础上实现了质的飞跃。
多模态竞技场模型排行榜
在 Tiny LVLM-eHub 上,Bard 在多项能力上表现出众,只是在关于物体形状和颜色的视觉常识和目标幻觉上表现欠佳。Bard 是 12 个模型中唯一的工业界闭源模型,因此不知道模型具体的大小、设计和训练数据集。相比之下,其他模型只有 7B-10B。当然我们目前的测试大都是单轮问答,而 Bard 支持多轮对话。相信 Bard 的能力不止于此,仍需要挖掘。
Bard Demo
Bard 很好地理解了图像的不寻常之处,拥有类似于人类的理解能力。它甚至可以根据图像做出关联,指出生活与艺术之间的关系。
Bard 相对较好地理解了复杂的食物链,并且回答了问题(在图中以蓝色标出),同时给出了超出问题范围的对食物链的更详细解释。
Bard 具有一定的多模态推理能力,可以正确回答那些需要根据图表(蓝色部分)进行一些推理的问题,但在准确识别图片中的详细信息方面仍然存在一些问题(红色部分)。
Bard 可以相对准确地以文字的形式生成目标检框。
与 GPT-4 类似,Bard 具有将手绘的网页设计转化为 HTML 代码的能力,并且更准确地识别网页的布局,甚至成功地将 “照片” 部分识别为需要导入图像的区域。
对于小学数学问题,Bard 错误地理解了问题,并且尽管之后的计算过程是正确的,但它还是给出了错误的答案。
Bard 仍然容易受到幻觉问题的影响。我们发现,如果在提示中提供了某些虚假的线索,Bard 仍然会在其基础上胡言乱语。
我们手动在图像上添加了一条红色的对角十字,然而 Bard 回答说图片中没有红色的物体。此外,奇怪的是,Bard 回答这个问题时好像完全忽略了我们添加的红色十字标记。
未来工作
尽管在 (Tiny) LVLM-eHub 中的评估是全面的,但我们仅评估了各种 LVLM 的多模态能力边界。事实上,LVLM 的评估还必须考虑其他关键因素,如内容安全、偏见和种族歧视等。由于这些模型生成的有偏见或有害内容可能造成潜在危害,因此必须彻底评估 LVLM 生成安全和无偏见内容的能力,以避免持续传播有害刻板印象或歧视态度。特别是,在进一步探索 LVLM 的发展时,应考虑如何增强对视觉常识的理解,并减轻幻觉问题。返回搜狐,查看更多
责任编辑:
多模态大模型, 能力测评, Bard, 视觉输入
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!