机器生成文本黑盒检测器的解释方法评估 (An Evaluation of Explanation Methods for Black-Box Detectors of Machine-Generated Text) - 专知论文

会员服务 ·

0

检测器 · 黑盒 · 分类器 · 文本检测 · 语言模型 ·

An Evaluation of Explanation Methods for Black-Box Detectors of Machine-Generated Text

翻译：机器生成文本黑盒检测器的解释方法评估

Loris Schoenegger,Yuxi Xia,Benjamin Roth

from arxiv, 11 pages; added figures and discussion, improved writing

The increasing difficulty to distinguish language-model-generated from human-written text has led to the development of detectors of machine-generated text (MGT). However, in many contexts, a black-box prediction is not sufficient, it is equally important to know on what grounds a detector made that prediction. Explanation methods that estimate feature importance promise to provide indications of which parts of an input are used by classifiers for prediction. However, these are typically evaluated with simple classifiers and tasks that are intuitive to humans. To assess their suitability beyond these contexts, this study conducts the first systematic evaluation of explanation quality for detectors of MGT. The dimensions of faithfulness and stability are evaluated with five automated experiments, and usefulness is assessed in a user study. We use a dataset of ChatGPT-generated and human-written documents, and pair predictions of three existing language-model-based detectors with the corresponding SHAP, LIME, and Anchor explanations. We find that SHAP performs best in terms of faithfulness, stability, and in helping users to predict the detector's behavior. In contrast, LIME, perceived as most useful by users, scores the worst in terms of user performance at predicting detector behavior.

翻译：随着语言模型生成文本与人类撰写文本的区分难度日益增加，机器生成文本检测器应运而生。然而在许多应用场景中，仅获得黑盒预测结果并不足够，了解检测器做出预测的依据同样至关重要。通过估计特征重要性来解释模型的方法，有望揭示分类器在预测时具体利用了输入的哪些部分。然而，现有评估通常基于人类易于理解的简单分类器和任务展开。为检验这些方法在更复杂场景中的适用性，本研究首次对机器生成文本检测器的解释质量进行了系统性评估。通过五项自动化实验评估了忠实性和稳定性两个维度，并通过用户研究评估了解释的实用性。我们采用ChatGPT生成文本与人类撰写文本构成的数据集，将三种现有基于语言模型的检测器预测结果分别与SHAP、LIME和Anchor解释方法进行配对分析。研究发现，在忠实性、稳定性以及帮助用户预测检测器行为方面，SHAP表现最佳。与之形成对比的是，虽然用户主观评价认为LIME最具实用性，但其在辅助用户预测检测器行为方面的实际表现却最差。

0

相关内容

检测器

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

专知会员服务

59+阅读 · 2022年10月26日

打开黑盒：可解释机器学习在心脏病学中的前景和局限

打开黑盒：可解释机器学习在心脏病学中的前景和局限

专知会员服务

25+阅读 · 2022年7月22日

《可解释的机器学习》中文版和英文版：226页pdf理解黑盒模型指南，复旦研究生朱明超翻译

《可解释的机器学习》中文版和英文版：226页pdf理解黑盒模型指南，复旦研究生朱明超翻译

专知会员服务

107+阅读 · 2022年3月11日

硬核书《可解释机器学习》最新版，打开黑盒之谜（431页pdf下载）

硬核书《可解释机器学习》最新版，打开黑盒之谜（431页pdf下载）

专知会员服务

158+阅读 · 2021年10月3日

【CMU博士论文】公平机器学习的黑盒方法，101页pdf

专知会员服务

48+阅读 · 2021年9月5日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

专知会员服务

380+阅读 · 2020年5月10日

可解释机器学习（Interpretable Machine Learning）：打开黑盒之谜（238页书籍下载）

可解释机器学习（Interpretable Machine Learning）：打开黑盒之谜（238页书籍下载）

专知会员服务

152+阅读 · 2019年10月27日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

AI100

10+阅读 · 2019年6月5日

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

数据派THU

16+阅读 · 2019年4月11日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

可解释机器学习：打开黑盒之谜（238页书籍下载）

可解释机器学习：打开黑盒之谜（238页书籍下载）

专知

29+阅读 · 2019年1月15日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Efficient Robot Design with Multi-Objective Black-Box Optimization and Large Language Models

Arxiv

0+阅读 · 2月18日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

Machine Text Detectors are Membership Inference Attacks

Arxiv

0+阅读 · 2月10日

FAID: Fine-Grained AI-Generated Text Detection Using Multi-Task Auxiliary and Multi-Level Contrastive Learning

Arxiv

0+阅读 · 2月8日

AdaDetectGPT: Adaptive Detection of LLM-Generated Text with Statistical Guarantees

Arxiv

0+阅读 · 2月1日

Evolution of Benchmark: Black-Box Optimization Benchmark Design through Large Language Model

Arxiv

0+阅读 · 1月31日

Smoothing the Black-Box: Signed-Distance Supervision for Black-Box Model Copying

Arxiv

0+阅读 · 1月28日

Whitespaces Don't Lie: Feature-Driven and Embedding-Based Approaches for Detecting Machine-Generated Code

Arxiv

0+阅读 · 1月27日

Diffusion Large Language Models for Black-Box Optimization

Arxiv

0+阅读 · 1月20日

MASH: Evading Black-Box AI-Generated Text Detectors via Style Humanization

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

【牛津大学博士论文】解释黑盒算法:认识论挑战和机器学习解决方案，247页pdf

专知会员服务

59+阅读 · 2022年10月26日

打开黑盒：可解释机器学习在心脏病学中的前景和局限

打开黑盒：可解释机器学习在心脏病学中的前景和局限

专知会员服务

25+阅读 · 2022年7月22日

《可解释的机器学习》中文版和英文版：226页pdf理解黑盒模型指南，复旦研究生朱明超翻译

《可解释的机器学习》中文版和英文版：226页pdf理解黑盒模型指南，复旦研究生朱明超翻译

专知会员服务

107+阅读 · 2022年3月11日

硬核书《可解释机器学习》最新版，打开黑盒之谜（431页pdf下载）

硬核书《可解释机器学习》最新版，打开黑盒之谜（431页pdf下载）

专知会员服务

158+阅读 · 2021年10月3日

【CMU博士论文】公平机器学习的黑盒方法，101页pdf

专知会员服务

48+阅读 · 2021年9月5日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

专知会员服务

380+阅读 · 2020年5月10日

可解释机器学习（Interpretable Machine Learning）：打开黑盒之谜（238页书籍下载）

可解释机器学习（Interpretable Machine Learning）：打开黑盒之谜（238页书籍下载）

专知会员服务

152+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

AI100

10+阅读 · 2019年6月5日

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

数据派THU

16+阅读 · 2019年4月11日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

可解释机器学习：打开黑盒之谜（238页书籍下载）

可解释机器学习：打开黑盒之谜（238页书籍下载）

专知

29+阅读 · 2019年1月15日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

相关论文

Efficient Robot Design with Multi-Objective Black-Box Optimization and Large Language Models

Arxiv

0+阅读 · 2月18日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

Machine Text Detectors are Membership Inference Attacks

Arxiv

0+阅读 · 2月10日

FAID: Fine-Grained AI-Generated Text Detection Using Multi-Task Auxiliary and Multi-Level Contrastive Learning

Arxiv

0+阅读 · 2月8日

AdaDetectGPT: Adaptive Detection of LLM-Generated Text with Statistical Guarantees

Arxiv

0+阅读 · 2月1日

Evolution of Benchmark: Black-Box Optimization Benchmark Design through Large Language Model

Arxiv

0+阅读 · 1月31日

Smoothing the Black-Box: Signed-Distance Supervision for Black-Box Model Copying

Arxiv

0+阅读 · 1月28日

Whitespaces Don't Lie: Feature-Driven and Embedding-Based Approaches for Detecting Machine-Generated Code

Arxiv

0+阅读 · 1月27日

Diffusion Large Language Models for Black-Box Optimization

Arxiv

0+阅读 · 1月20日

MASH: Evading Black-Box AI-Generated Text Detectors via Style Humanization

Arxiv

0+阅读 · 1月13日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员