FCMBench is the first large-scale and privacy-compliant multimodal benchmark for real-world financial credit applications, covering tasks and robustness challenges from domain specific workflows and constraints. The current version of FCMBench covers 26 certificate types, with 5198 privacy-compliant images and 13806 paired VQA samples. It evaluates models on Perception and Reasoning tasks under real-world Robustness interferences, including 3 foundational perception tasks, 4 credit-specific reasoning tasks demanding decision-oriented visual evidence interpretation, and 10 real-world challenges for rigorous robustness stress testing. Moreover, FCMBench offers privacy-compliant realism with minimal leakage risk through in-house scenario-aware captures of manually synthesized templates, without any publicly released images. We conduct extensive evaluations of 28 state-of-the-art vision-language models spanning 14 AI companies and research institutes. Among them, Gemini 3 Pro achieves the best F1 score as a commercial model (65.16), Kimi-K2.5 achieves the best score as an open-source baseline (60.58). The mean and the std. of all tested models is 44.8 and 10.3 respectively, indicating that FCMBench is non-trivial and provides strong resolution for separating modern vision-language model capabilities. Robustness evaluations reveal that even top-performing models experience notable performance degradation under the designed challenges. We have open-sourced this benchmark to advance AI research in the credit domain and provide a domain-specific task for real-world AI applications.


翻译:FCMBench是首个面向真实世界金融信贷应用的大规模、符合隐私保护要求的多模态基准,涵盖了来自特定领域工作流程与约束的任务及鲁棒性挑战。当前版本的FCMBench涵盖26种证件类型,包含5198张符合隐私规范的图像及13806个配对的视觉问答样本。该基准在真实世界鲁棒性干扰下评估模型在感知与推理任务上的表现,包括3项基础感知任务、4项需要基于决策导向的视觉证据解释的信贷专项推理任务,以及10项用于严格鲁棒性压力测试的真实世界挑战。此外,FCMBench通过内部场景感知采集手动合成的模板图像,在实现符合隐私要求的真实性的同时将泄漏风险降至最低,且未使用任何公开发布的图像。我们对来自14家人工智能企业与研究机构的28个前沿视觉-语言模型进行了广泛评估。其中,Gemini 3 Pro作为商业模型取得了最佳F1分数(65.16),Kimi-K2.5作为开源基线取得了最佳分数(60.58)。所有测试模型的平均分与标准差分别为44.8和10.3,表明FCMBench具有显著挑战性,并为区分现代视觉-语言模型的能力提供了强分辨力。鲁棒性评估显示,即使在设计的挑战下,性能最优的模型也出现了明显的性能下降。我们已开源此基准,以推动信贷领域的人工智能研究,并为真实世界人工智能应用提供领域专项任务。

0
下载
关闭预览

相关内容

可靠且负责任的基础模型:全面综述
专知会员服务
20+阅读 · 2月10日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
18+阅读 · 2025年6月8日
金融风控领域的大模型落地实践
专知会员服务
24+阅读 · 2025年1月2日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
大模型在金融领域的应用技术与安全白皮书2024
专知会员服务
60+阅读 · 2024年4月10日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
《金融大数据术语》行业标准,24页pdf
专知会员服务
55+阅读 · 2022年2月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
2+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
2+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
可靠且负责任的基础模型:全面综述
专知会员服务
20+阅读 · 2月10日
【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
18+阅读 · 2025年6月8日
金融风控领域的大模型落地实践
专知会员服务
24+阅读 · 2025年1月2日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
大模型在金融领域的应用技术与安全白皮书2024
专知会员服务
60+阅读 · 2024年4月10日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
《金融大数据术语》行业标准,24页pdf
专知会员服务
55+阅读 · 2022年2月28日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员