【CVPR2025教程】大规模多模态模型的评估：挑战与方法 - 专知VIP

会员服务 ·

11

CVPR 2025 · 多模态模型 · 大型多模态模型 ·

2025 年 6 月 13 日

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着大规模多模态模型（LMMs）的迅速发展，人们对其安全性与潜在风险的关注也日益增加。这些担忧主要源于我们对其能力与局限性的认知尚不充分。在本次教程中，我们旨在填补这一空白，提供对 LMM 评估的全面概览。首先，我们从“评估什么”、“在哪里评估”以及“如何评估”这三个维度出发，梳理 LMM 评估的最新进展。接着，我们提出当前 LMM 评估中面临的若干关键挑战，例如数据污染和固定复杂度问题，并介绍应对这些挑战的方法。此外，我们还将探讨包括可信度、鲁棒性与公平性在内的关键评估指标，并评估 LMM 在自然科学与社会科学等多种下游任务中的表现。最后，我们总结了一些广泛使用的评估代码库与基准测试工具，以支持相关研究工作。我们希望本教程能推动学术界与工业界持续关注 LMM 的安全性、责任性与准确性，共同促进多模态人工智能的健康发展。

https://ucsb-mlsec.github.io/cvpr2025-tutorial-Evaluating-Large-Multi-modal-Models-Challenges-and-Methods/

成为VIP会员查看完整内容

15

相关内容

CVPR 2025

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

专知会员服务

19+阅读 · 2025年3月2日

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

专知会员服务

46+阅读 · 2025年2月27日

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

【EMNLP2024教程】语言智能体：基础、前景和风险

【EMNLP2024教程】语言智能体：基础、前景和风险

专知会员服务

42+阅读 · 2024年11月19日

【ECCV2024教程】关于解耦与组合性的新兴趋势

【ECCV2024教程】关于解耦与组合性的新兴趋势

专知会员服务

21+阅读 · 2024年10月17日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

43+阅读 · 2024年9月8日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

25+阅读 · 2024年8月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

专知会员服务

42+阅读 · 2023年5月5日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

49+阅读 · 2022年11月28日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

综述 | 语义分割经典网络及轻量化模型盘点

综述 | 语义分割经典网络及轻量化模型盘点

计算机视觉life

54+阅读 · 2019年7月23日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

LibRec智能推荐

41+阅读 · 2019年5月9日

【干货】基于协同过滤的推荐系统实战（附完整代码）

【干货】基于协同过滤的推荐系统实战（附完整代码）

专知

76+阅读 · 2018年4月5日

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

专知

11+阅读 · 2018年2月26日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

Stokes/Darcy 耦合问题的数值方法及预处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

我国马铃薯生产区域专业化研究——基于空间布局的视角

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

VIP会员

相关主题

多模态模型

大型多模态模型

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

4+阅读 · 今天12:53

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

3+阅读 · 今天12:39

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

2+阅读 · 今天12:32

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

1+阅读 · 今天12:25

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

1+阅读 · 今天12:14

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

0+阅读 · 今天12:08

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

【AAAI2025教程】基于物理启发的几何预训练用于分子表示

专知会员服务

19+阅读 · 2025年3月2日

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

专知会员服务

46+阅读 · 2025年2月27日

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

【EMNLP2024教程】语言智能体：基础、前景和风险

【EMNLP2024教程】语言智能体：基础、前景和风险

专知会员服务

42+阅读 · 2024年11月19日

【ECCV2024教程】关于解耦与组合性的新兴趋势

【ECCV2024教程】关于解耦与组合性的新兴趋势

专知会员服务

21+阅读 · 2024年10月17日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

43+阅读 · 2024年9月8日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

25+阅读 · 2024年8月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

专知会员服务

42+阅读 · 2023年5月5日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

49+阅读 · 2022年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

论文推荐|[CVPR 2020]增广学习：面向文本行识别的网络优化协同数据增广方法

专知

22+阅读 · 2020年4月9日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

综述 | 语义分割经典网络及轻量化模型盘点

综述 | 语义分割经典网络及轻量化模型盘点

计算机视觉life

54+阅读 · 2019年7月23日

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

【ICASSP教程】深度生成模型在信号处理领域的应用（附116页PPT全文下载）

专知

16+阅读 · 2019年5月29日

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

论文 | 基于深度学习的序列推荐系统综述：概念、方法与实验评估

LibRec智能推荐

41+阅读 · 2019年5月9日

【干货】基于协同过滤的推荐系统实战（附完整代码）

【干货】基于协同过滤的推荐系统实战（附完整代码）

专知

76+阅读 · 2018年4月5日

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

专知

11+阅读 · 2018年2月26日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关基金

基于工业大数据挖掘的复杂产品总完工时间动态预测

国家自然科学基金

4+阅读 · 2015年12月31日

Stokes/Darcy 耦合问题的数值方法及预处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

我国马铃薯生产区域专业化研究——基于空间布局的视角

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员