超越最终答案：用于透明多模态推理评估的CRYSTAL基准 (Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation) - 专知论文

会员服务 ·

0

多模 · 模态 · 基准 · 多模态 · 多模态推理 ·

Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation

翻译：超越最终答案：用于透明多模态推理评估的CRYSTAL基准

Wayner Barrios,SouYoung Jin

We introduce **CRYSTAL** (*__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic*), a diagnostic benchmark with 6,372 instances that evaluates multimodal reasoning through verifiable intermediate steps. We propose two complementary metrics: *Match F1*, which scores step-level precision and recall via semantic similarity matching, and *Ordered Match F1*, which further penalizes disordered reasoning chains. References are constructed through a Delphi-inspired pipeline where four independent MLLMs generate trajectories, aggregated via semantic clustering and validated through human quality gates. Evaluation of 20 MLLMs, including commercial frontier systems not used during benchmark construction, reveals systematic failures invisible to accuracy: universal cherry-picking (precision far exceeds recall), non-monotonic scaling trade-offs, and disordered reasoning where no competitive model preserves more than 60% of matched steps in correct order. Beyond evaluation, we propose the **Causal Process Reward (CPR)**, a multiplicative reward that couples answer correctness with step-level alignment, and **CPR-Curriculum**, which progressively increases reasoning difficulty during training. CPR-Curriculum achieves +32% Match F1 via GRPO where additive reward strategies fail, improving reasoning without manual step annotation.

翻译：我们提出**CRYSTAL**（*基于产出步骤、可追溯性与逻辑的清晰推理*），这是一个包含6,372个样本的诊断性基准，通过可验证的中间步骤评估多模态推理能力。我们提出了两个互补的评估指标：*匹配F1值*——通过语义相似度匹配对步骤级精确率与召回率进行评分；*有序匹配F1值*——进一步对无序推理链施加惩罚。参考标准的构建采用德尔菲式流程：四个独立的多模态大语言模型生成推理轨迹，通过语义聚类进行聚合，并经由人工质量关卡验证。对20个多模态大语言模型（包括基准构建阶段未使用的商业前沿系统）的评估揭示了准确率指标无法发现的系统性缺陷：普遍存在的选择性优化（精确率远高于召回率）、非单调的规模扩展权衡，以及无序推理问题——所有竞争模型中保持正确顺序的匹配步骤均未超过60%。除评估外，我们提出**因果过程奖励**——一种将答案正确性与步骤对齐度耦合的乘积式奖励机制，以及**CPR课程学习**——在训练过程中逐步提升推理难度。通过GRPO框架，CPR课程学习实现了匹配F1值+32%的提升（而加性奖励策略在此失效），在无需人工步骤标注的情况下显著改善了推理能力。

0

相关内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

【HKUST博士论文】知识图谱推理的进展：复杂查询应答与逻辑假设生成的创新方法

【HKUST博士论文】知识图谱推理的进展：复杂查询应答与逻辑假设生成的创新方法

专知会员服务

20+阅读 · 2025年6月24日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

随机非均质多孔介质中水流与溶质运移问题的随机降维多尺度数值方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

光透法实时定量监测多相流的模型及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning

Arxiv

0+阅读 · 3月2日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月28日

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs

Arxiv

0+阅读 · 2月24日

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Arxiv

0+阅读 · 2月19日

Evaluating LLM Reasoning Beyond Correctness and CoT

Arxiv

0+阅读 · 2月12日

Beyond Accuracy: A Stability-Aware Metric for Multi-Horizon Forecasting

Arxiv

0+阅读 · 2月12日

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Arxiv

0+阅读 · 2月12日

ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge

Arxiv

0+阅读 · 2月10日

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

Arxiv

0+阅读 · 2月10日

MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

多模态推理

最新内容

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

专知会员服务

2+阅读 · 4月12日

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

专知会员服务

5+阅读 · 4月12日

最新“指挥控制”领域出版物合集（16份）

最新“指挥控制”领域出版物合集（16份）

专知会员服务

7+阅读 · 4月12日

面向军事作战需求开发的人工智能（RAIMOND）

面向军事作战需求开发的人工智能（RAIMOND）

专知会员服务

15+阅读 · 4月12日

检测算法战：一个识别军事行动中人工智能特征的框架

检测算法战：一个识别军事行动中人工智能特征的框架

专知会员服务

9+阅读 · 4月12日

软件定义多域战术网络：基础与未来方向（综述）

软件定义多域战术网络：基础与未来方向（综述）

专知会员服务

11+阅读 · 4月12日

水下战战术决策中的气象与海洋预报（50页报告）

水下战战术决策中的气象与海洋预报（50页报告）

专知会员服务

3+阅读 · 4月12日

远程空中优势：新一代超视距导弹的兴起

远程空中优势：新一代超视距导弹的兴起

专知会员服务

2+阅读 · 4月12日

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

3+阅读 · 4月12日

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

专知会员服务

1+阅读 · 4月12日

大语言模型与国防战略：升级风险与国家安全挑战（综述）

大语言模型与国防战略：升级风险与国家安全挑战（综述）

专知会员服务

9+阅读 · 4月12日

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

专知会员服务

11+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第二部分

以机器速度作战：人工智能与美陆军反火力作战——第二部分

专知会员服务

10+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第一部分

以机器速度作战：人工智能与美陆军反火力作战——第一部分

专知会员服务

8+阅读 · 4月11日

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

7+阅读 · 4月11日

相关VIP内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

【HKUST博士论文】知识图谱推理的进展：复杂查询应答与逻辑假设生成的创新方法

【HKUST博士论文】知识图谱推理的进展：复杂查询应答与逻辑假设生成的创新方法

专知会员服务

20+阅读 · 2025年6月24日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

热门VIP内容

开通专知VIP会员享更多权益服务

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

面向军事作战需求开发的人工智能（RAIMOND）

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

最新“指挥控制”领域出版物合集（16份）

相关资讯

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

相关论文

Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning

Arxiv

0+阅读 · 3月2日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月28日

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs

Arxiv

0+阅读 · 2月24日

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Arxiv

0+阅读 · 2月19日

Evaluating LLM Reasoning Beyond Correctness and CoT

Arxiv

0+阅读 · 2月12日

Beyond Accuracy: A Stability-Aware Metric for Multi-Horizon Forecasting

Arxiv

0+阅读 · 2月12日

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Arxiv

0+阅读 · 2月12日

ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge

Arxiv

0+阅读 · 2月10日

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

Arxiv

0+阅读 · 2月10日

MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models

Arxiv

0+阅读 · 2月7日

相关基金

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

随机非均质多孔介质中水流与溶质运移问题的随机降维多尺度数值方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

光透法实时定量监测多相流的模型及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员