The financial domain poses substantial challenges for vision-language models (VLMs) due to specialized chart formats and knowledge-intensive reasoning requirements. However, existing financial benchmarks are largely single-turn and rely on a narrow set of question formats, limiting comprehensive evaluation in realistic application scenarios. To address this gap, we propose FinMTM, a multi-turn multimodal benchmark that expands diversity along both data and task dimensions. On the data side, we curate and annotate 11{,}133 bilingual (Chinese and English) financial QA pairs grounded in financial visuals, including candlestick charts, statistical plots, and report figures. On the task side, FinMTM covers single- and multiple-choice questions, multi-turn open-ended dialogues, and agent-based tasks. We further design task-specific evaluation protocols, including a set-overlap scoring rule for multiple-choice questions, a weighted combination of turn-level and session-level scores for multi-turn dialogues, and a composite metric that integrates planning quality with final outcomes for agent tasks. Extensive experimental evaluation of 22 VLMs reveal their limitations in fine-grained visual perception, long-context reasoning, and complex agent workflows.


翻译:金融领域因其专业化的图表格式与知识密集的推理需求,对视觉-语言模型(VLMs)提出了重大挑战。然而,现有的金融基准大多为单轮任务,且依赖有限的提问形式,限制了在真实应用场景中的全面评估。为弥补这一不足,我们提出了FinMTM——一个多轮多模态基准,在数据与任务两个维度上扩展了多样性。在数据方面,我们整理并标注了11,133个基于金融视觉内容(包括K线图、统计图表及报告图示)的双语(中文与英文)金融问答对。在任务方面,FinMTM涵盖单选与多选题、多轮开放式对话以及基于智能体的任务。我们进一步设计了任务专用的评估协议,包括针对多选题的集合重叠评分规则、针对多轮对话的轮次级与会话级分数加权组合方法,以及针对智能体任务、融合规划质量与最终结果的综合度量指标。对22个VLMs的广泛实验评估揭示了它们在细粒度视觉感知、长上下文推理及复杂智能体工作流程方面的局限性。

0
下载
关闭预览

相关内容

在社会经济生活,银行、证券或保险业者从市场主体募集资金,并投资给其它市场主体的经济活动。
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
17+阅读 · 2025年6月8日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员