大模型对话更能贴近现实!
不仅可以输入最多20张图像,还可以支持最多27轮对话。可以处理最多18k 的文本+图像令牌。
这是最新开源的超长多图像多轮对话理解数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)。
大规模视觉语言模型(LVLM) 的核心功能之一是生成自然且有意义的答案,从而实现与人类之间流畅的文本到文本对话。
虽然目前开源的LVLM在单轮单图像输入等简化场景中表现出了良好的潜力,但在上下文长度较长、需要多轮对话和多图像输入的现实对话场景中,其性能相对不足。
此外,现有的LVLM Benchmarks主要采用单选题或简答题的形式,难以全面评估LVLM在现实人机交互应用中的性能。
为此,研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning中提出了一种新的多图像多轮评估基准MMDU和大规模指令微调数据集MMDU-45k LVLM 数据集,旨在评估和提高LVLM 在多轮和多图像对话中的性能。
目前,该研究在HuggingFace 6月18日日报上排名第一,并在VQA数据集趋势榜中排名前三,引起国内外广泛关注。
可以缩小开源模型和闭源模型之间的差距。 MMDU基准测试具有以下优点:
(1)多轮对话和多图像输入:MMDU基准测试包括多达20张图像和27轮问答对话,从而超越了之前的各种基准,真正复制了现实世界中的聊天交互场景。
(2) 长上下文:MMDU 基准评估LVLM 通过多达18k 文本+ 图像标记处理和理解具有长上下文历史的上下文信息的能力。
(3)开放式评估:MMDU摆脱了传统基准测试所依赖的封闭式问题和短输出(例如选择题或简答题),通过自由-开放的方式采用更加真实和精细的评估方法。形成多轮输出评估LVLM的性能,强调评估结果的可扩展性和可解释性。
在构建MMDU的过程中,研究人员从开源维基百科中选择了高度相关的图像和文本信息,并在GPT-4o模型的帮助下,人类注释者构建了问答对。
具体来说,研究人员通过聚类方法将维基百科条目合并,将其划分为多个不同类别,并使用同一类别中的不同条目(包括图像和文本)来组合它们。 InternLM-Chat-20B清理并去除无用信息后,交给GPT-4o进行对话生成。生成的词条目和多条目对话相结合,构建具有长上下文的多图、多轮对话。
生成的对话以的格式标记图像位置,用户可以进一步组合不同的多图多轮对话,构建所需长度的对话。
MMDU Benchmark 中包含的问答具有多达18k 个图像+ 文本标记、20 个图像和27 轮对话。其规模比之前的同类型基准至少大五倍,对当前的LVLM提出了新的挑战。 MMDU-45k 中包含的最长对话数据有超过17k 个图像+ 文本标记。
45k多轮对话总共包含超过410k个问题和答案,可以显着提高LVLM在长上下文理解、多图片多轮对话等方面的能力。
受到使用强大的法学硕士作为评委的NLP 研究的启发,MMDU 研究人员开发了一种使用GPT-4o 进行模型性能评估的评估流程。
具体来说,模型在MMDU 基准上生成输出后,GPT-4o 会沿多个维度评估这些输出,并将其与参考答案进行比较。
为了确保评估全面细致,MMDU确定了六个评估维度:创造力、丰富性、视觉感知、逻辑连贯性、答案准确性和对图像关系的理解。为了引导GPT-4o提供平衡、公正的评估,每个维度都精心设计了评估提示。
每个维度的评分范围为10分,分为5个区间(0-2、2-4.8-10),并为每个区间设定相应的评价标准。 GPT-4o 遵循这些评审过程标准,并为每个维度提供最终分数。
MMDU的评估过程中,以GPT-4o作为评判,根据参考答案给出总体评分。在每次评估中,GPT-4o 都会参考模型的答案和参考答案。它将为每个评估标准(以蓝色表示)提供相应的分数(以绿色表示),并最终以浅橙色总结结果。
通过对15 个具有代表性的开源和闭源LVLM 的深入分析,研究人员发现开源LVLM(如LLaVa)与闭源系统(如GPT-4V)相比存在较大差距,原因在于缺乏足够的对话指令微调数据。研究表明,通过在MMDU-45k 数据集上微调开源LVLM,可以显着缩小这一差距。 Finetune模型可以生成更长、更准确的对话,同时对多图像交错的图像和文本有更好的理解。一个显着的改进。
该团队报告了以下指标:创造力(C)、丰富性(R)、视觉感知(VP)、逻辑连贯性(LC)、答案准确性(AA)、图像关系理解(IRU)和平均(Avg.)结果。
此外,微调MMDU-45k后的模型性能在现有基准测试上也有所提升(MMStar: +1.1%、MathVista: +1.5%、ChartQA: +1.2%)。该结果表明MMDU-45k 可以提高LVLM 在各种图像和文本相关任务上的能力。
该表报告了LLaVa 和InternLM-XC2 在MMDU 和现有代表性基准测试上的性能,包括MMB (MMBench-Dev-EN)、MMMU (MMMU-Val)、MMStar、MathVista、AI2D、HallBench (HallusionBench)、MMVet 和ChartQA。每个部分的最佳和第二佳结果分别标记为绿色和红色。
无论是多图像多轮问答还是普通单图像问答场景,经过MMDU-45k微调后的模型都有显着的性能提升。这种性能提升首先体现在图像内容的识别上。与微调前的LVLM相比,微调后的模型可以更准确地同时理解多幅图像的主要内容、图像的顺序以及图像之间的关系。此外,经过微调的模型可以生成更详细、更丰富的输出,并且可以轻松处理上下文长度极长的图形对话场景。
InternLM-Xcomposer2 在MMDU-45k 数据集上微调前后的性能。错误或幻觉的描述在演示中标记为红色,详细和准确的描述标记为绿色。
– 超过-
量子比特QbitAI·今日头条签约
关注我们,第一时间了解前沿技术动态