多模态视觉理解与推理文献综述

Date:

点击此处查看交互式文献综述

引言

近年来,以大型语言模型(LLMs)为代表的人工智能技术在自然语言处理领域取得了里程碑式的进展,展示了其在文本理解、生成与复杂推理方面的卓越能力。然而,人类对世界的认知并非仅限于文本,而是通过整合来自视觉、听觉、触觉等多种感官的信息来构建一个完整的“世界模型”。因此,要使机器具备更高级的智能,能够处理复杂的现实世界任务,就必须超越单一模态的局限,深入探索多模态智能。

本报告聚焦于计算机科学领域的核心前沿方向——多模态视觉理解与推理。该领域旨在赋予机器一种人类般的能力,即通过观察和分析视觉信息来执行复杂的认知任务。这不仅是视觉问答(VQA)的简单延伸,更是具身智能、自动驾驶、医疗诊断等关键应用得以实现的基础。不同于传统的视觉任务,多模态视觉理解与推理要求模型能够进行多步逻辑推理、整合外部知识,甚至像人类一样“思考”和“想象”。

本报告旨在为该领域的研究者、学生及产业专家提供一个系统、全面、深入的概览。报告将首先追溯多模态视觉推理的认知范式演进,随后深度剖析该领域最新的高质量综述文献,提炼其核心思想与方法。接着,将重点介绍支撑这些范式的关键技术和代表性工作。此外,还将对该领域重要的评估基准和数据集进行细致的评估,阐明其独特的挑战性与局限性。最后,本报告将综合分析当前面临的主要挑战,并展望未来的研究方向,旨在为未来的创新提供清晰的路线图。

第一部分:多模态视觉推理的认知范式演进

多模态视觉推理的研究范式正经历一场深刻的变革,其核心是从“被动观察”到“主动思考”的转变。这种转变并非偶然,而是为了弥补早期方法论的根本性缺陷,并更好地与人类认知过程对齐。

1.1 从“关于图像的思考”(Thinking about Images)到“以图像为思考媒介”(Thinking with Images)

在早期的多模态系统中,一个主导的范式可以被描述为“关于图像的思考”(Thinking about Images) 1。在这种模式下,多模态模型(LMMs)主要依赖于

文本中心的推理方式 1。模型首先“看到”一张图像,将其编码成一组固定的特征,随后所有的推理过程都完全在文本领域内完成。图像仅仅作为最初的、静态的上下文被处理,而语言则成为唯一的“思维”介质 1。这种方法虽然在许多任务上取得了成功,但它造成了一个根本性的“语义鸿沟”,即视觉世界丰富、连续、甚至模糊的特性与语言离散、符号化的结构之间存在脱节 3。

为了跨越这一鸿沟,一个新兴的范式正在兴起,即以图像为思考媒介”(Thinking with Images) 1。该范式主张模型应将视觉信息作为其推理过程中的

动态中间步骤,将视觉从一个被动的输入转变为一个可操作的、像人类“认知画板”一样的认知工作空间 1。例如,当处理一个复杂的几何问题时,一个纯粹的文本思维链(CoT)模型可能会因缺乏视觉线索而陷入困境。而一个能够“以图像为思考媒介”的模型则可以主动生成一个新的图像,在其中添加辅助线或标记关键点。当这个新图像被反馈给模型时,原本抽象的几何关系就变成了可感知的视觉特征 1。OpenAI的o3和o4-mini模型正是这一范式的最新实践,它们能够自动调用工具对图像进行裁剪、缩放和旋转等操作,以进行更深入的分析 4。

1.2 组合式视觉推理(Compositional Visual Reasoning):从分解到推理

与“以图像为思考媒介”范式相辅相成的是组合式视觉推理(Compositional Visual Reasoning, CVR) 5。该范式旨在赋予机器一种人类独有的能力,即系统性地将复杂的视觉场景分解为可解释的组件(如对象、属性和关系),并在此基础上执行多步逻辑推理 6。

这种方法论直接借鉴了人类解决复杂视觉问题的系统性和模块化方式 6。人类会自然地将一个复杂的场景或任务分解为一系列更小、更易于管理的步骤。例如,在机器人学中,视觉推理通过评估物体的可用性和空间关系来确保无碰撞操作;在医学影像中,它帮助模型从复杂的扫描中检测解剖结构或异常 6。研究表明,这种组合式方法在认知上与人类对齐,能够增强模型的泛化能力、鲁棒性、可解释性,并减少对语言偏差和幻觉的依赖 7。

上述两种范式并非相互对立,而是共同描绘了多模态视觉推理从被动、单一的“模式匹配”到动态、结构化的“自主推理”的演进路径。早期范式在语义鸿沟、鲁棒性和可解释性方面的局限性,直接促使研究社区探索更接近人类认知的新方法,例如对视觉工具的依赖以及结构化推理的引入 6。这正是推动该领域从单纯追求性能提升转向追求与人类认知机制深度对齐的根本动力。

第二部分:最新高质量综述文献深度剖析

了解一个领域的前沿进展,高质量的综述文献是不可或缺的指南。根据CCF(中国计算机学会)、上海软科等机构的推荐,计算机视觉领域的顶级会议包括CVPR、ICCV、NeurIPS、ICML等 8。以下三篇高质量综述,虽然尚未正式登刊,但已作为预印本在

arXiv上发布,其作者团队来自领域内顶尖的实验室,其学术价值与前瞻性不言而喻。

2.1 多模态思维链综述(基于arXiv:2503.12605)

这篇综述被作者团队称为是首个系统性地回顾多模态思维链(Multimodal Chain-of-Thought, MCoT)的文献 10。其核心贡献在于填补了该领域系统性分析的空白,为MCoT的定义、基础概念和未来方向提供了清晰的阐释 10。

该综述涵盖了包括图像、视频、音频、3D和结构化数据在内的多种模态,并提供了一个全面的分类法。它详细分析了六种核心方法论,如原理构建、多模态思考、测试时扩展等,并探讨了它们在机器人、医疗保健、自动驾驶等应用场景中的成功实践 11。此外,综述还深入探讨了MCoT面临的挑战,并为未来的研究指明了方向,旨在促进朝向多模态通用人工智能(AGI)的创新 10。

2.2 “以图像为思考媒介”综述(基于arXiv:2506.23918)

这篇综述提出了一个独到的、富有前瞻性的三阶段演进框架,为多模态视觉推理的未来发展提供了清晰的路线图 2。

  • 第一阶段:外部工具探索。在此阶段,模型充当一个“指挥官”,通过调用预定义的一系列外部视觉工具(如OCR、缩放、感知探索等)来辅助分析和决策 3。

  • 第二阶段:程序化操作。模型进化为“视觉程序员”,能够通过组合视觉、逻辑和复合操作来创建定制化的程序,以解决复杂问题 3。

  • 第三阶段:内禀想象。这是该范式的最高阶段,模型能够像人类一样,在没有外部工具的情况下,内在地生成视觉思考。这种内禀的视觉思维可以表现为隐式的潜在空间推理、显式的视觉推理或交错式多模态推理 3。

该综述强调,将视觉作为推理的动态媒介,是弥合“语义鸿沟”、实现更强大和更具人类对齐性AI的关键 2。

2.3 组合式视觉推理综述(基于arXiv:2508.17298)

该综述为组合式视觉推理(CVR)领域提供了一个统一的分类法、历史路线图和批判性展望 5。它系统地回顾了自2023年以来该领域的快速发展,并提出了一个

五阶段范式转变模型 7。

  • 阶段I:提示增强的语言中心方法。模型通过提示来分解任务,并使用语言来执行推理 7。
  • 阶段II:工具增强的大型语言模型。LLMs开始利用外部工具来增强其感知能力 7。
  • 阶段III:工具增强的视觉-语言模型。视觉-语言模型(VLMs)开始通过语言或嵌入来控制视觉工具,将图像作为反馈 7。
  • 阶段IV:思维链增强的视觉-语言模型。该阶段将思维链(CoT)与VLMs相结合,以增强多步推理 7。
  • 阶段V:统一的智能体视觉-语言模型。这是最前沿的阶段,模型具备自动发现信息区域、目标驱动探索和利用“想象”进行推理的能力 7。

这篇综述指出了CVR在认知对齐、语义保真度、鲁棒性、可解释性和数据效率等方面的多重优势,并旨在为下一代CVR研究提供一个基础性参考 5。

表格1:多模态视觉推理三大综述对比

综述标题核心范式关键贡献涵盖方法与技术挑战与展望
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey 10思维链(CoT)在多模态领域的扩展应用首次系统性综述,提供了清晰的MCoT定义与分类 10多模态CoT、原理构建、测试时扩展、多模态思考 11幻觉、世界模型集成、动态链优化、通用AGI 10
Thinking with Images for Multimodal Reasoning 2视觉作为可操作的认知画板与思维媒介提出了独创的“以图像为思考媒介”三阶段演进框架 3外部视觉工具探索、程序化操作、内禀想象 3认知对齐、人机协作、从“关于图像的思考”向“以图像为思考媒介”的范式转变 3
Explain Before You Answer: A Survey on Compositional Visual Reasoning 5将视觉场景分解并执行多步逻辑推理提供了该领域自2023年以来的历史路线图与统一分类法 7提示增强、工具增强、思维链增强、统一智能体 7鲁棒性、可解释性、可扩展的监督、基准局限性 5

第三部分:关键方法与代表性工作

多模态视觉推理领域的快速发展离不开一系列具有代表性的方法论和框架。这些工作不仅在特定任务上取得了突破,更推动了整个领域范式的演进。

3.1 思维链(CoT)与两阶段框架

思维链(CoT)作为一种在大型语言模型中增强复杂推理的有效技术,其核心思想是让模型通过生成一系列中间推理步骤来得出最终答案 12。在多模态领域,

Multimodal-CoT (Zhang et al., 2023) 13 是该思想的早期代表性工作。该模型采用一个两阶段框架 14: 第一阶段,模型基于多模态信息(图像和文本)生成推理的原理(Rationale)

第二阶段,模型利用这个生成的原理来推断最终答案 14。这种方法将复杂的推理过程分解,有助于缓解幻觉问题并提升收敛速度 13。尽管该工作在ScienceQA基准上超越了GPT-3.5等模型 15,但其也面临质疑。有审稿人指出其创新性有限,并且缺乏与Gemini、GPT-4V等最新SOTA大型模型的对比,这凸显出该领域的技术更新速度之快 14。

3.2 视觉工具增强与强化学习

为了使模型能够像人类一样与视觉信息进行动态交互,研究社区开始探索视觉工具增强的方法。OpenThinkIMG框架 16 是一个重要的代表性工作,它被认为是首个开源的、端到端的工具增强型大型视觉-语言模型(LVLM)框架 16。

该框架通过引入名为V-ToolRL强化学习方法 16,使LVLMs能够自主学习最佳的工具使用策略。不同于传统的监督微调(SFT)方法,

V-ToolRL通过任务成功的反馈直接进行优化,从而解决了SFT在动态工具调用上泛化能力有限的挑战 16。

OpenThinkIMG提供了一个统一的工具接口,并设计了可扩展的三阶段流程来构建高质量的工具使用轨迹,大大降低了训练数据获取的高昂成本 16。该框架的提出旨在推动开发能够真正“以图像为思考媒介”的AI智能体 16。

第四部分:评估基准与数据集的挑战性分析

高质量的评估基准不仅是衡量模型性能的尺子,更是定义领域挑战、引导研究方向的罗盘。以下核心基准的演变清晰地揭示了该领域对模型能力要求的逐步提升。

4.1 通用多模态推理基准

  • ScienceQA:这是一个旨在诊断AI系统多跳推理能力和可解释性的基准 17。它包含了约2.1万个来自中小学科学课程的多模态问题,其中近一半问题带有图像上下文 17。ScienceQA的独特之处在于,它为大部分问题提供了详细的“讲座”和“解释”作为

    思维链注释,这使得模型不仅需要给出正确答案,还需要模拟人类的推理过程 17。尽管原始论文中基于CoT的GPT-3模型取得了75.17%的准确率 17,但根据xbench最新的排行榜,即使是最先进的Grok-4和o3等模型,在这一基准上的得分也仅在60%左右徘徊 18,这表明该基准在考察复杂推理能力方面依然具有显著的挑战性。

  • A-OKVQA:这是一个要求模型具备常识和世界知识的视觉问答基准 19。该数据集包含约2.5万个问答对,其问题无法仅通过图像内容来回答,而必须整合领域外的知识和推理能力 19。例如,模型需要推断出图像中一个使用手推车的人,可能需要“帮助”这一常识性知识 20。与依赖封闭知识库的数据集不同,A-OKVQA需要模型利用

    开放域知识,这使其更具挑战性和现实意义 20。

4.2 特定任务推理基准:图表与认知能力

  • 图表理解基准(ChartQA, PlotQA):这些数据集 21 要求模型具备

    视觉和逻辑双重推理能力。它们不仅要求模型识别图表中的视觉元素,如坐标轴、数据点,还需要执行复杂的逻辑和算术运算 23。此外,这些基准还包含许多

    固定词汇之外(Out-of-Vocabulary, OOV)的答案,迫使模型不能简单地从预设列表中选择,而必须真正地进行计算和推导 22。这完美地体现了组合式视觉推理的必要性,即需要将视觉感知、数据提取和逻辑推理串联起来。

  • 人类认知基准(VisFactor, VCR)VisFactor是一个基于人类认知心理学测试设计的新基准,旨在揭示主流多模态大型语言模型(MLLMs)在基本视觉能力上的根本性缺陷 24。研究发现,尽管这些模型在许多主流基准上取得了高分,但在处理人类能够轻易解决的空间关系、感知和闭合性等任务时,依然表现挣扎 24。这一发现对现有的评估体系提出了深刻挑战,表明传统的基准可能无法充分反映模型的真实视觉理解能力,即模型可能擅长“模式匹配”而非真正的“认知理解”。同样,

    VCR(视觉常识推理)基准的排行榜也显示,尽管部分模型在特定任务上逼近了人类性能,但在需要复杂推理的整体任务上,模型与人类的表现之间仍存在明显差距 25。

评估基准的演变反映了研究社区对模型能力要求的不断深化。从最初的简单 VQA 任务,到 ScienceQA 和 A-OKVQA 所要求的多跳推理和外部知识,再到 VisFactor 和 VCR 所揭示的认知对齐和鲁棒性问题,这些基准的局限性也同时暴露了该领域正处于一个高速发展但尚未成熟的阶段。

表格2:多模态视觉推理核心基准一览

数据集名称主要任务关键挑战数据规模来源
ScienceQA 17多模式多项选择问答多跳推理、思维链注释、可解释性约21,208个问题中小学科学课程 17
A-OKVQA 19开放域知识视觉问答常识与世界知识推理、领域外知识整合约25,000个问答对COCO 2017 20
ChartQA 21图表问答逻辑/算术运算、视觉与文本融合、OOV答案约9.6K人工问题和23.1K生成问题人工撰写 23
VisFactor 24人类认知能力测试空间推理、感知、闭合性等基础视觉能力20个源自人类认知心理学测试的子测试人类认知心理学评估 24

第五部分:综合分析、挑战与未来展望

多模态视觉理解与推理领域正处于一个激动人心的范式变革时期,其发展的核心脉络清晰可辨。

5.1 综合洞察:领域发展的关键驱动力

该领域的核心驱动力可以概括为以下三点:

  • 范式转变:研究已从单纯的模态“融合”走向了“交互”与“代理”,即从被动地将视觉信息作为输入,转变为主动地利用视觉信息作为推理过程的动态媒介 1。这种根本性转变旨在弥合语言与视觉之间的“语义鸿沟”。

  • 技术融合:大型语言模型(LLMs)的强大推理能力与大型视觉模型(VLMs)的感知能力正进行深度融合 7。在此基础上,研究人员进一步引入了工具调用和强化学习等技术,使模型能够进行更高级的自主探索和决策 16。

  • 评估升级:评估基准的不断演变揭示了研究方向的深刻变化。新的基准不再仅仅关注准确率,而是开始全面考察模型在可解释性、常识推理和认知对齐等方面的能力 17。这表明,该领域的研究正从“技术性能”导向转向“认知能力”导向。

5.2 当前面临的挑战

尽管取得了显著进展,但该领域仍面临多重挑战:

  • 幻觉问题(Hallucination):模型可能会生成与图像内容不符的虚假信息或推理,这不仅影响了其可靠性,也增加了应用风险 5。

  • 基准局限性与评估污染:现有基准可能无法完全反映模型的真实能力,且存在被模型过度优化而失去挑战性的风险 7。

    VisFactor等基准的出现正是为了解决这一问题 24。

  • 数据瓶颈:高质量、大规模且带有细粒度推理过程注释的多模态数据获取成本极高,这在很大程度上制约了模型训练的规模和效果。OpenThinkIMG框架试图通过自动化和强化学习来缓解这一问题,但高质量数据依然是稀缺资源 16。

5.3 未来研究方向

综合上述分析,未来的研究方向应聚焦于以下几个方面:

  • 迈向通用多模态AGI:多模态视觉推理的最终目标是实现通用人工智能(AGI),这需要模型具备更高级的自主学习、规划和泛化能力 6。

  • 视觉-世界模型(World-Model)的集成:将视觉输入与模型对世界的内在理解和因果知识相结合,使模型能够进行更深层次的因果推理和规划,而不仅仅是基于表面特征的模式匹配 5。

  • 可解释性与人机交互:如何使模型的推理过程更加透明、更易于人类理解,并实现与人类的无缝协作,将是未来的重要研究方向 6。

总结

本报告系统性地梳理了多模态视觉理解与推理领域的最新进展。分析表明,该领域正在经历从被动模态融合到主动、动态、类人认知推理的深刻范式演变。以多模态思维链“以图像为思考媒介”组合式视觉推理为代表的新兴范式正在重新定义该领域的边界。

尽管仍面临幻觉、评估污染和数据稀缺等挑战,但关键技术(如工具增强、强化学习)的不断突破和评估基准(如ScienceQA、A-OKVQA、VisFactor)的持续升级,正共同推动该领域迈向新的高度。多模态视觉理解与推理作为通向通用人工智能的关键路径,其研究价值和广阔前景无可限量。该领域正处于一个激动人心的变革时期,值得研究人员和产业界持续关注和投入。