As multimodal AI becomes widely used for credit risk assessment and document review, a domain-specific benchmark is urgently needed that (1) reflects documents and workflows specific to financial credit applications, (2) includes credit-specific understanding and real-world robustness, and (3) preserves privacy compliance without sacrificing practical utility. Here, we introduce FCMBench-V1.0 -- a large-scale financial credit multimodal benchmark for real-world applications, covering 18 core certificate types, with 4,043 privacy-compliant images and 8,446 QA samples. The FCMBench evaluation framework consists of three dimensions: Perception, Reasoning, and Robustness, including 3 foundational perception tasks, 4 credit-specific reasoning tasks that require decision-oriented understanding of visual evidence, and 10 real-world acquisition artifact types for robustness stress testing. To reconcile compliance with realism, we construct all samples via a closed synthesis-capture pipeline: we manually synthesize document templates with virtual content and capture scenario-aware images in-house. This design also mitigates pre-training data leakage by avoiding web-sourced or publicly released images. FCMBench can effectively discriminate performance disparities and robustness across modern vision-language models. Extensive experiments were conducted on 23 state-of-the-art vision-language models (VLMs) from 14 top AI companies and research institutes. Among them, Gemini 3 Pro achieves the best F1(\%) score as a commercial model (64.61), Qwen3-VL-235B achieves the best score as an open-source baseline (57.27), and our financial credit-specific model, Qfin-VL-Instruct, achieves the top overall score (64.92). Robustness evaluations show that even top-performing models suffer noticeable performance drops under acquisition artifacts.


翻译:随着多模态人工智能在信贷风险评估与文档审核中的广泛应用,亟需构建一个领域特定的基准测试,该基准需满足以下要求:(1) 反映金融信贷应用特有的文档类型与工作流程;(2) 涵盖信贷领域的专业理解能力与现实场景鲁棒性;(3) 在保证实用性的同时符合隐私合规要求。本文推出 FCMBench-V1.0——一个面向实际应用的大规模金融信贷多模态基准测试,覆盖18种核心凭证类型,包含4,043张合规图像与8,446组问答样本。FCMBench 评估框架包含感知、推理与鲁棒性三个维度:其中涵盖3项基础感知任务、4项需要基于视觉证据进行决策性理解的信贷专项推理任务,以及10类现实采集伪影类型用于鲁棒性压力测试。为兼顾合规性与真实性,我们通过封闭式合成-采集流程构建所有样本:人工合成含虚拟内容的文档模板,并在受控环境下采集场景感知图像。该设计通过避免使用网络来源或公开发布的图像,有效缓解了预训练数据泄露问题。FCMBench 能有效甄别当代视觉-语言模型间的性能差异与鲁棒性表现。我们对来自14家顶尖AI企业与研究机构的23个前沿视觉-语言模型进行了广泛实验。其中,Gemini 3 Pro 作为商业模型获得最佳F1(%)分数(64.61),Qwen3-VL-235B 作为开源基线获得最佳分数(57.27),而我们针对金融信贷领域专门训练的模型 Qfin-VL-Instruct 取得了最高综合分数(64.92)。鲁棒性评估表明,即使在采集伪影影响下表现最优的模型也会出现显著性能下降。

0
下载
关闭预览

相关内容

在社会经济生活,银行、证券或保险业者从市场主体募集资金,并投资给其它市场主体的经济活动。
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
17+阅读 · 2025年6月8日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
央行发布《人工智能算法金融应用评价规范》,28页pdf
专知会员服务
76+阅读 · 2021年5月2日
多模态预训练模型简述
专知会员服务
114+阅读 · 2021年4月27日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
金融风控背后的技术综述
七月在线实验室
45+阅读 · 2019年2月28日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
17+阅读 · 2025年6月8日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
央行发布《人工智能算法金融应用评价规范》,28页pdf
专知会员服务
76+阅读 · 2021年5月2日
多模态预训练模型简述
专知会员服务
114+阅读 · 2021年4月27日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员