FCMBench is the first large-scale and privacy-compliant multimodal benchmark for real-world financial credit applications, covering tasks and robustness challenges from domain specific workflows and constraints. The current version of FCMBench covers 26 certificate types, with 5198 privacy-compliant images and 13806 paired VQA samples. It evaluates models on Perception and Reasoning tasks under real-world Robustness interferences, including 3 foundational perception tasks, 4 credit-specific reasoning tasks demanding decision-oriented visual evidence interpretation, and 10 real-world challenges for rigorous robustness stress testing. Moreover, FCMBench offers privacy-compliant realism with minimal leakage risk through in-house scenario-aware captures of manually synthesized templates, without any publicly released images. We conduct extensive evaluations of 28 state-of-the-art vision-language models spanning 14 AI companies and research institutes. Among them, Gemini 3 Pro achieves the best F1 score as a commercial model (65.16), Kimi-K2.5 achieves the best score as an open-source baseline (60.58). The mean and the std. of all tested models is 44.8 and 10.3 respectively, indicating that FCMBench is non-trivial and provides strong resolution for separating modern vision-language model capabilities. Robustness evaluations reveal that even top-performing models experience notable performance degradation under the designed challenges. We have open-sourced this benchmark to advance AI research in the credit domain and provide a domain-specific task for real-world AI applications.


翻译:暂无翻译

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
18+阅读 · 2025年6月8日
智能金融稳步前行:构建负责任的可信大模型
专知会员服务
22+阅读 · 2024年10月8日
大模型在金融领域的应用技术与安全白皮书2024
专知会员服务
60+阅读 · 2024年4月10日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
中国金融科技生态白皮书(2022年),65页pdf
专知会员服务
38+阅读 · 2022年11月21日
重磅!金融元宇宙研究白皮书(2022),43页pdf
专知会员服务
61+阅读 · 2022年5月23日
央行发布《金融大数据术语》,25页pdf
专知会员服务
43+阅读 · 2022年1月25日
专知会员服务
62+阅读 · 2021年6月11日
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
25年,110个经典财务欺诈案例,都在这儿了
虎嗅网
70+阅读 · 2019年8月19日
DARPA | 世界上最大的“5G+AI+仿真”探索项目
走向智能论坛
32+阅读 · 2019年7月29日
平安云监控 || 当open-falcon遇上kubernetes
运维帮
10+阅读 · 2017年7月4日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
11+阅读 · 2021年12月8日
VIP会员
相关VIP内容
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
18+阅读 · 2025年6月8日
智能金融稳步前行:构建负责任的可信大模型
专知会员服务
22+阅读 · 2024年10月8日
大模型在金融领域的应用技术与安全白皮书2024
专知会员服务
60+阅读 · 2024年4月10日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
中国金融科技生态白皮书(2022年),65页pdf
专知会员服务
38+阅读 · 2022年11月21日
重磅!金融元宇宙研究白皮书(2022),43页pdf
专知会员服务
61+阅读 · 2022年5月23日
央行发布《金融大数据术语》,25页pdf
专知会员服务
43+阅读 · 2022年1月25日
专知会员服务
62+阅读 · 2021年6月11日
相关资讯
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
25年,110个经典财务欺诈案例,都在这儿了
虎嗅网
70+阅读 · 2019年8月19日
DARPA | 世界上最大的“5G+AI+仿真”探索项目
走向智能论坛
32+阅读 · 2019年7月29日
平安云监控 || 当open-falcon遇上kubernetes
运维帮
10+阅读 · 2017年7月4日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员