增强生成模型评估：基于截断密度与覆盖度的新方法 (Enhanced Generative Model Evaluation with Clipped Density and Coverage) - 专知论文

会员服务 ·

0

覆盖 · 样本 · 度量 · 生成模型 · 模型评估 ·

Enhanced Generative Model Evaluation with Clipped Density and Coverage

翻译：增强生成模型评估：基于截断密度与覆盖度的新方法

Nicolas Salvy,Hugues Talbot,Bertrand Thirion

Although generative models have made remarkable progress in recent years, their use in critical applications has been hindered by an inability to reliably evaluate the quality of their generated samples. Quality refers to at least two complementary concepts: fidelity and coverage. Current quality metrics often lack reliable, interpretable values due to an absence of calibration or insufficient robustness to outliers. To address these shortcomings, we introduce two novel metrics: Clipped Density and Clipped Coverage. By clipping individual sample contributions, as well as the radii of nearest neighbor balls for fidelity, our metrics prevent out-of-distribution samples from biasing the aggregated values. Through analytical and empirical calibration, these metrics demonstrate linear score degradation as the proportion of bad samples increases. Thus, they can be straightforwardly interpreted as equivalent proportions of good samples. Extensive experiments on synthetic and real-world datasets demonstrate that Clipped Density and Clipped Coverage outperform existing methods in terms of robustness, sensitivity, and interpretability when evaluating generative models.

翻译：尽管生成模型近年来取得了显著进展，但其在关键应用中的部署仍受限于生成样本质量评估的可靠性问题。质量至少包含两个互补概念：保真度与覆盖度。现有质量度量方法常因缺乏校准或对异常值鲁棒性不足，导致其数值缺乏可靠且可解释的特性。为克服这些缺陷，本文提出两个新度量指标：截断密度与截断覆盖度。通过截断单个样本贡献值以及保真度计算中最近邻球的半径，我们的方法能有效防止分布外样本对聚合值的偏差影响。经解析与实验校准验证，这些度量指标在劣质样本比例增加时呈现线性分数衰减特性，因此可直接解释为优质样本的等效比例。在合成与真实数据集上的大量实验表明，在评估生成模型时，截断密度与截断覆盖度在鲁棒性、敏感性与可解释性方面均优于现有方法。

0

相关内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

231页pdf！最新《生成式基础模型的可信度——指南、评估与展望》

231页pdf！最新《生成式基础模型的可信度——指南、评估与展望》

专知会员服务

38+阅读 · 2025年2月23日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

专知会员服务

67+阅读 · 2022年11月30日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知会员服务

40+阅读 · 2022年11月5日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

深度生成模型综述

深度生成模型综述

专知会员服务

52+阅读 · 2022年1月2日

【斯坦福博士论文】深度生成模型的评估，126页pdf

专知会员服务

36+阅读 · 2021年7月19日

深度生成模型综述(中文版)，43页pdf

专知会员服务

184+阅读 · 2020年11月23日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

Dependence Fidelity and Downstream Inference Stability in Generative Models

Dependence Fidelity and Downstream Inference Stability in Generative Models

Arxiv

0+阅读 · 3月17日

Gaussian mixture models for model improvement

Arxiv

0+阅读 · 3月16日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Arxiv

0+阅读 · 3月8日

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Arxiv

0+阅读 · 2月27日

Calibrating confounding strength in sensitivity models for weighting estimators: a comparative review and a new method

Arxiv

0+阅读 · 2月26日

Enhancing LLM-Based Test Generation by Eliminating Covered Code

Arxiv

0+阅读 · 2月25日

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Arxiv

0+阅读 · 2月22日

How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study

Arxiv

0+阅读 · 2月8日

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

0+阅读 · 23分钟前

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

0+阅读 · 35分钟前

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

5+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

2+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

6+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

9+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

4+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

4+阅读 · 4月16日

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

10+阅读 · 4月16日

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

5+阅读 · 4月16日

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

7+阅读 · 4月16日

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

231页pdf！最新《生成式基础模型的可信度——指南、评估与展望》

231页pdf！最新《生成式基础模型的可信度——指南、评估与展望》

专知会员服务

38+阅读 · 2025年2月23日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

专知会员服务

67+阅读 · 2022年11月30日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知会员服务

40+阅读 · 2022年11月5日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

深度生成模型综述

深度生成模型综述

专知会员服务

52+阅读 · 2022年1月2日

【斯坦福博士论文】深度生成模型的评估，126页pdf

专知会员服务

36+阅读 · 2021年7月19日

深度生成模型综述(中文版)，43页pdf

专知会员服务

184+阅读 · 2020年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

（译文）认知战：以士兵为目标，塑造战略

美空军条令（2026）：外国对内防御

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）认知战的本体论基础（2026报告）

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Dependence Fidelity and Downstream Inference Stability in Generative Models

Dependence Fidelity and Downstream Inference Stability in Generative Models

Arxiv

0+阅读 · 3月17日

Gaussian mixture models for model improvement

Arxiv

0+阅读 · 3月16日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Arxiv

0+阅读 · 3月8日

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Arxiv

0+阅读 · 2月27日

Calibrating confounding strength in sensitivity models for weighting estimators: a comparative review and a new method

Arxiv

0+阅读 · 2月26日

Enhancing LLM-Based Test Generation by Eliminating Covered Code

Arxiv

0+阅读 · 2月25日

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Arxiv

0+阅读 · 2月22日

How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study

Arxiv

0+阅读 · 2月8日

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Arxiv

0+阅读 · 1月30日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员