iFlip：基于迭代反馈的反事实示例优化方法 (iFlip: Iterative Feedback-driven Counterfactual Example Refinement) - 专知论文

会员服务 ·

0

反事实 · 示例 · 优化方法 · 基线 · 模型预测 ·

iFlip: Iterative Feedback-driven Counterfactual Example Refinement

翻译：iFlip：基于迭代反馈的反事实示例优化方法

Yilong Wang,Qianli Wang,Nils Feldhus

from arxiv, In submission

Counterfactual examples are minimal edits to an input that alter a model's prediction. They are widely employed in explainable AI to probe model behavior and in natural language processing (NLP) to augment training data. However, generating valid counterfactuals with large language models (LLMs) remains challenging, as existing single-pass methods often fail to induce reliable label changes, neglecting LLMs' self-correction capabilities. To explore this untapped potential, we propose iFlip, an iterative refinement approach that leverages three types of feedback, including model confidence, feature attribution, and natural language. Our results show that iFlip achieves an average 57.8% higher validity than the five state-of-the-art baselines, as measured by the label flipping rate. The user study further corroborates that iFlip outperforms baselines in completeness, overall satisfaction, and feasibility. In addition, ablation studies demonstrate that three components are paramount for iFlip to generate valid counterfactuals: leveraging an appropriate number of iterations, pointing to highly attributed words, and early stopping. Finally, counterfactuals generated by iFlip enable effective counterfactual data augmentation, substantially improving model performance and robustness.

翻译：反事实示例是对输入进行最小编辑以改变模型预测的方法。它们在可解释人工智能中被广泛用于探究模型行为，并在自然语言处理中用于增强训练数据。然而，使用大型语言模型生成有效的反事实示例仍然具有挑战性，因为现有的单次生成方法往往无法可靠地引发标签变化，且忽视了LLMs的自我修正能力。为挖掘这一未开发的潜力，我们提出了iFlip——一种利用三类反馈（包括模型置信度、特征归因和自然语言）的迭代优化方法。实验结果表明，以标签翻转率为衡量标准，iFlip的平均有效性比五种最先进的基线方法高出57.8%。用户研究进一步证实，iFlip在完整性、总体满意度和可行性方面均优于基线方法。此外，消融研究表明，iFlip生成有效反事实示例的关键在于三个要素：采用适当迭代次数、聚焦高归因词汇以及实施早停机制。最后，iFlip生成的反事实示例能够实现有效的反事实数据增强，显著提升模型性能与鲁棒性。

0

相关内容

反事实

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

专知会员服务

10+阅读 · 2025年10月19日

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

专知会员服务

30+阅读 · 2024年1月2日

【CVPR2023】对抗性反事实视觉解释

【CVPR2023】对抗性反事实视觉解释

专知会员服务

31+阅读 · 2023年3月22日

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知会员服务

84+阅读 · 2022年7月20日

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

反事实学习如何用于推荐！看RecSys2021教程《推荐系统反事实学习和评估:基础、实施和最新进展》，

专知会员服务

35+阅读 · 2021年9月30日

【ICML 2021】树集成中的最优反事实解释

专知会员服务

19+阅读 · 2021年9月21日

【霍普金斯&哈佛经典书】反事实与因果推断-社会研究的方法和原则，335页pdf

【霍普金斯&哈佛经典书】反事实与因果推断-社会研究的方法和原则，335页pdf

专知会员服务

85+阅读 · 2021年8月26日

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

专知会员服务

104+阅读 · 2021年8月16日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月28日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月27日

Counterfactual Training: Teaching Models Plausible and Actionable Explanations

Arxiv

0+阅读 · 1月22日

CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation

Arxiv

0+阅读 · 1月20日

On the Hardness of Computing Counterfactual and Semifactual Explanations in XAI

Arxiv

0+阅读 · 1月14日

IFDNS: An Iterative Feedback-Driven Neuro-Symbolic Method for Faithful Logical Reasoning

Arxiv

0+阅读 · 1月12日

On the Definition and Detection of Cherry-Picking in Counterfactual Explanations

Arxiv

0+阅读 · 1月8日

Towards Two-Stage Counterfactual Learning to Rank

Arxiv

0+阅读 · 1月6日

Counterfactual Explanations for Integer Optimization Problems

Arxiv

0+阅读 · 1月5日

Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

相关VIP内容

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

专知会员服务

10+阅读 · 2025年10月19日

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

专知会员服务

30+阅读 · 2024年1月2日

【CVPR2023】对抗性反事实视觉解释

【CVPR2023】对抗性反事实视觉解释

专知会员服务

31+阅读 · 2023年3月22日

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知会员服务

84+阅读 · 2022年7月20日

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

反事实学习如何用于推荐！看RecSys2021教程《推荐系统反事实学习和评估:基础、实施和最新进展》，

专知会员服务

35+阅读 · 2021年9月30日

【ICML 2021】树集成中的最优反事实解释

专知会员服务

19+阅读 · 2021年9月21日

【霍普金斯&哈佛经典书】反事实与因果推断-社会研究的方法和原则，335页pdf

【霍普金斯&哈佛经典书】反事实与因果推断-社会研究的方法和原则，335页pdf

专知会员服务

85+阅读 · 2021年8月26日

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

专知会员服务

104+阅读 · 2021年8月16日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

相关论文

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月28日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月27日

Counterfactual Training: Teaching Models Plausible and Actionable Explanations

Arxiv

0+阅读 · 1月22日

CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation

Arxiv

0+阅读 · 1月20日

On the Hardness of Computing Counterfactual and Semifactual Explanations in XAI

Arxiv

0+阅读 · 1月14日

IFDNS: An Iterative Feedback-Driven Neuro-Symbolic Method for Faithful Logical Reasoning

Arxiv

0+阅读 · 1月12日

On the Definition and Detection of Cherry-Picking in Counterfactual Explanations

Arxiv

0+阅读 · 1月8日

Towards Two-Stage Counterfactual Learning to Rank

Arxiv

0+阅读 · 1月6日

Counterfactual Explanations for Integer Optimization Problems

Arxiv

0+阅读 · 1月5日

Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation

Arxiv

0+阅读 · 1月1日

相关基金

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员