随着大规模多模态模型(LMMs)的迅速发展,人们对其安全性与潜在风险的关注也日益增加。这些担忧主要源于我们对其能力与局限性的认知尚不充分。在本次教程中,我们旨在填补这一空白,提供对 LMM 评估的全面概览。 首先,我们从“评估什么”、“在哪里评估”以及“如何评估”这三个维度出发,梳理 LMM 评估的最新进展。接着,我们提出当前 LMM 评估中面临的若干关键挑战,例如数据污染和固定复杂度问题,并介绍应对这些挑战的方法。 此外,我们还将探讨包括可信度、鲁棒性与公平性在内的关键评估指标,并评估 LMM 在自然科学与社会科学等多种下游任务中的表现。最后,我们总结了一些广泛使用的评估代码库与基准测试工具,以支持相关研究工作。 我们希望本教程能推动学术界与工业界持续关注 LMM 的安全性、责任性与准确性,共同促进多模态人工智能的健康发展。

https://ucsb-mlsec.github.io/cvpr2025-tutorial-Evaluating-Large-Multi-modal-Models-Challenges-and-Methods/

成为VIP会员查看完整内容
15

相关内容

【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
【EMNLP2024教程】语言智能体:基础、前景和风险
专知会员服务
42+阅读 · 2024年11月19日
【ECCV2024教程】关于解耦与组合性的新兴趋势
专知会员服务
21+阅读 · 2024年10月17日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
54+阅读 · 2019年7月23日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
VIP会员
最新内容
 军事通信系统与设备的技术演进综述
专知会员服务
0+阅读 · 25分钟前
《北约标准:医疗评估手册》174页
专知会员服务
0+阅读 · 33分钟前
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 37分钟前
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
8+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
3+阅读 · 4月19日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员