MENLI: Robust Evaluation Metrics from Natural Language Inference - 专知论文

会员服务 ·

0

评价指标 · 标准基 · 鲁棒 · 评价 · 基准测试 ·

2023 年 4 月 11 日

MENLI: Robust Evaluation Metrics from Natural Language Inference

翻译：MENLI：基于自然语言推理的稳健评估指标

Yanran Chen,Steffen Eger

from arxiv, TACL 2023 Camera-ready; github link fixed+Fig.3 legend fixed

Recently proposed BERT-based evaluation metrics for text generation perform well on standard benchmarks but are vulnerable to adversarial attacks, e.g., relating to information correctness. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when combining existing metrics with our NLI metrics, we obtain both higher adversarial robustness (15%-30%) and higher quality metrics as measured on standard benchmarks (+5% to 30%).

翻译：近期提出的基于BERT的文本生成评估指标在标准基准测试中表现良好，但容易受到对抗攻击（例如与信息正确性相关的攻击）。我们认为，这（部分）源于这些指标本质上是语义相似度模型。相比之下，我们开发了基于自然语言推理（NLI）的评估指标，认为这是一种更合适的建模方式。我们设计了一个基于偏好的对抗攻击框架，并证明基于NLI的指标比近期基于BERT的指标对攻击具有更强的稳健性。在标准基准测试中，基于NLI的指标优于现有摘要评估指标，但略低于当前最优的机器翻译指标。然而，将现有指标与我们的NLI指标结合使用时，不仅能获得更高的对抗稳健性（提升15%-30%），还能在标准基准测试中获得质量更高的指标（提升5%-30%）。

0

相关内容

评价指标

【MIT博士论文】可部署的鲁棒文本分类器

【MIT博士论文】可部署的鲁棒文本分类器

专知会员服务

27+阅读 · 2023年5月4日

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

专知会员服务

19+阅读 · 2022年3月1日

【EMNLP2021教程】鲁棒自然语言处理，EMNLP 21 Tutorial on Robust NLP，176页pdf

【EMNLP2021教程】鲁棒自然语言处理，EMNLP 21 Tutorial on Robust NLP，176页pdf

专知会员服务

35+阅读 · 2021年11月12日

【ICML2021】反事实生成模型的语言

专知会员服务

18+阅读 · 2021年9月17日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

最新《人脸识别对抗攻击》综述 | Threat of Adversarial Attacks on Face Recognition: A Comprehensive Survey

最新《人脸识别对抗攻击》综述 | Threat of Adversarial Attacks on Face Recognition: A Comprehensive Survey

专知会员服务

26+阅读 · 2020年7月24日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

专知会员服务

17+阅读 · 2020年4月10日

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

四步法三维编织复合材料弯曲疲劳失效多尺度损伤模型

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态MRI的神经节苷酯对鼻咽癌放射性脑损伤早期干预疗效的研究

国家自然科学基金

0+阅读 · 2013年12月31日

机器翻译中大规模异类特征的迁移学习

国家自然科学基金

2+阅读 · 2013年12月31日

基于SURE/PURE准则的图像盲反卷积算法研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于鲁棒性能的超大跨桥梁主动控制面颤抖振控制原理与方法

国家自然科学基金

0+阅读 · 2013年12月31日

高超声速飞行器实时再入轨迹与姿态协调控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

密肋复合墙结构基于贝叶斯理论的恢复力模型参数识别及动力可靠度分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构损伤模型的疲劳寿命与可靠性计算高精求解方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

Counterpart Fairness -- Addressing Systematic between-group Differences in Fairness Evaluation

Arxiv

0+阅读 · 2023年5月29日

Tri-level Joint Natural Language Understanding for Multi-turn Conversational Datasets

Arxiv

0+阅读 · 2023年5月28日

RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question

Arxiv

0+阅读 · 2023年5月26日

Learning to Imagine: Visually-Augmented Natural Language Generation

Arxiv

0+阅读 · 2023年5月26日

Unsupervised Embedding Quality Evaluation

Arxiv

0+阅读 · 2023年5月26日

DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation

Arxiv

0+阅读 · 2023年5月25日

Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language

Arxiv

0+阅读 · 2023年5月25日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

A Survey on Graph Counterfactual Explanations: Definitions, Methods, Evaluation

Arxiv

12+阅读 · 2022年10月21日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

5+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

4+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

5+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

5+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【MIT博士论文】可部署的鲁棒文本分类器

【MIT博士论文】可部署的鲁棒文本分类器

专知会员服务

27+阅读 · 2023年5月4日

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

【俄亥俄州立大学学生论文】鲁棒自然语言理解，74页pdf，Towards More Robust Natural Language Understanding

专知会员服务

19+阅读 · 2022年3月1日

【EMNLP2021教程】鲁棒自然语言处理，EMNLP 21 Tutorial on Robust NLP，176页pdf

【EMNLP2021教程】鲁棒自然语言处理，EMNLP 21 Tutorial on Robust NLP，176页pdf

专知会员服务

35+阅读 · 2021年11月12日

【ICML2021】反事实生成模型的语言

专知会员服务

18+阅读 · 2021年9月17日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

最新《人脸识别对抗攻击》综述 | Threat of Adversarial Attacks on Face Recognition: A Comprehensive Survey

最新《人脸识别对抗攻击》综述 | Threat of Adversarial Attacks on Face Recognition: A Comprehensive Survey

专知会员服务

26+阅读 · 2020年7月24日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

专知会员服务

17+阅读 · 2020年4月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理

深度学习自然语言处理

18+阅读 · 2020年5月22日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

相关论文

Counterpart Fairness -- Addressing Systematic between-group Differences in Fairness Evaluation

Arxiv

0+阅读 · 2023年5月29日

Tri-level Joint Natural Language Understanding for Multi-turn Conversational Datasets

Arxiv

0+阅读 · 2023年5月28日

RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question

Arxiv

0+阅读 · 2023年5月26日

Learning to Imagine: Visually-Augmented Natural Language Generation

Arxiv

0+阅读 · 2023年5月26日

Unsupervised Embedding Quality Evaluation

Arxiv

0+阅读 · 2023年5月26日

DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation

Arxiv

0+阅读 · 2023年5月25日

Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language

Arxiv

0+阅读 · 2023年5月25日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

A Survey on Graph Counterfactual Explanations: Definitions, Methods, Evaluation

Arxiv

12+阅读 · 2022年10月21日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

相关基金

四步法三维编织复合材料弯曲疲劳失效多尺度损伤模型

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态MRI的神经节苷酯对鼻咽癌放射性脑损伤早期干预疗效的研究

国家自然科学基金

0+阅读 · 2013年12月31日

机器翻译中大规模异类特征的迁移学习

国家自然科学基金

2+阅读 · 2013年12月31日

基于SURE/PURE准则的图像盲反卷积算法研究

国家自然科学基金

3+阅读 · 2013年12月31日

基于鲁棒性能的超大跨桥梁主动控制面颤抖振控制原理与方法

国家自然科学基金

0+阅读 · 2013年12月31日

高超声速飞行器实时再入轨迹与姿态协调控制策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

密肋复合墙结构基于贝叶斯理论的恢复力模型参数识别及动力可靠度分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构损伤模型的疲劳寿命与可靠性计算高精求解方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员