Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection - 专知论文

会员服务 ·

0

阈值 · AI · 检测器 · 文本检测 · 鲁棒 ·

Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection

翻译：面向鲁棒AI生成文本检测的群体自适应阈值优化

Minseok Jung,Cynthia Fuertes Panizo,Liam Dugan,Yi R., Fung,Pin-Yu Chen,Paul Pu Liang

The advancement of large language models (LLMs) has made it difficult to differentiate human-written text from AI-generated text. Several AI-text detectors have been developed in response, which typically utilize a fixed global threshold (e.g., $θ= 0.5$) to classify machine-generated text. However, one universal threshold could fail to account for distributional variations by subgroups. For example, when using a fixed threshold, detectors make more false positive errors on shorter human-written text, and more positive classifications of neurotic writing styles among long texts. These discrepancies can lead to misclassifications that disproportionately affect certain groups. We address this critical limitation by introducing FairOPT, an algorithm for group-specific threshold optimization for probabilistic AI-text detectors. We partitioned data into subgroups based on attributes (e.g., text length and writing style) and implemented FairOPT to learn decision thresholds for each group to reduce discrepancy. FairOPT showed notable discrepancy mitigation across nine detectors and three heterogeneous datasets, and the remarkable mitigation of the minimax problem by decreasing overall discrepancy 27.4% across five metrics while minimally sacrificing accuracy by 0.005%. Our framework paves the way for more robust classification in AI-generated content detection via post-processing. We release our data, code, and project information at URL.

翻译：大型语言模型（LLM）的进步使得区分人类书写文本与AI生成文本变得困难。为此，已开发出多种AI文本检测器，这些检测器通常采用固定的全局阈值（例如 $θ= 0.5$）来分类机器生成的文本。然而，一个通用阈值可能无法适应不同子群体的分布差异。例如，当使用固定阈值时，检测器在较短的人类书写文本上会产生更多的假阳性错误，并且在长文本中对神经质写作风格有更多的阳性分类。这些差异可能导致误分类，并对某些群体造成不成比例的影响。我们通过引入FairOPT算法来解决这一关键局限，该算法用于概率型AI文本检测器的群体特定阈值优化。我们根据属性（如文本长度和写作风格）将数据划分为子群体，并实施FairOPT为每个群体学习决策阈值以减少差异。FairOPT在九种检测器和三个异构数据集上显示出显著的差异缓解效果，并通过将五项指标上的总体差异降低27.4%，同时仅以0.005%的微小代价牺牲准确性，显著缓解了极小极大问题。我们的框架通过后处理为AI生成内容检测中更鲁棒的分类铺平了道路。我们在URL上发布了我们的数据、代码和项目信息。

0

相关内容

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

专知会员服务

12+阅读 · 2025年9月22日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

18+阅读 · 2025年2月11日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

专知会员服务

32+阅读 · 2024年12月18日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

32+阅读 · 2024年9月26日

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

专知会员服务

37+阅读 · 2024年8月23日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

专知会员服务

41+阅读 · 2023年9月17日

【MIT博士论文】可部署的鲁棒文本分类器

【MIT博士论文】可部署的鲁棒文本分类器

专知会员服务

27+阅读 · 2023年5月4日

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

专知会员服务

17+阅读 · 2020年4月10日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

Tensorflow实战系列：手把手教你使用LSTM进行文本分类（附完整代码）

Tensorflow实战系列：手把手教你使用LSTM进行文本分类（附完整代码）

专知

58+阅读 · 2018年3月31日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Detecting AI-Generated Images via Contextual Anomaly Estimation in Masked AutoEncoders

Arxiv

0+阅读 · 3月9日

AI-Wrapped: Participatory, Privacy-Preserving Measurement of Longitudinal LLM Use In-the-Wild

Arxiv

0+阅读 · 2月20日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

GPTZero: Robust Detection of LLM-Generated Texts

Arxiv

0+阅读 · 2月13日

FAID: Fine-Grained AI-Generated Text Detection Using Multi-Task Auxiliary and Multi-Level Contrastive Learning

Arxiv

0+阅读 · 2月8日

Evaluating Prompt Engineering Strategies for Sentiment Control in AI-Generated Texts

Arxiv

0+阅读 · 2月6日

RobustExplain: Evaluating Robustness of LLM-Based Explanation Agents for Recommendation

Arxiv

0+阅读 · 2月3日

AICD Bench: A Challenging Benchmark for AI-Generated Code Detection

Arxiv

0+阅读 · 2月2日

AdaDetectGPT: Adaptive Detection of LLM-Generated Text with Statistical Guarantees

Arxiv

0+阅读 · 2月1日

Text-only adaptation in LLM-based ASR through text denoising

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

1+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

1+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

4+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

5+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

5+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

6+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

6+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

6+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

专知会员服务

12+阅读 · 2025年9月22日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

18+阅读 · 2025年2月11日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

专知会员服务

32+阅读 · 2024年12月18日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

32+阅读 · 2024年9月26日

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

大模型如何生成可控文本？人大等最新《大型语言模型的可控文本生成》综述

专知会员服务

37+阅读 · 2024年8月23日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

专知会员服务

41+阅读 · 2023年9月17日

【MIT博士论文】可部署的鲁棒文本分类器

【MIT博士论文】可部署的鲁棒文本分类器

专知会员服务

27+阅读 · 2023年5月4日

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

专知会员服务

17+阅读 · 2020年4月10日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

Tensorflow实战系列：手把手教你使用LSTM进行文本分类（附完整代码）

Tensorflow实战系列：手把手教你使用LSTM进行文本分类（附完整代码）

专知

58+阅读 · 2018年3月31日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Detecting AI-Generated Images via Contextual Anomaly Estimation in Masked AutoEncoders

Arxiv

0+阅读 · 3月9日

AI-Wrapped: Participatory, Privacy-Preserving Measurement of Longitudinal LLM Use In-the-Wild

Arxiv

0+阅读 · 2月20日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

GPTZero: Robust Detection of LLM-Generated Texts

Arxiv

0+阅读 · 2月13日

FAID: Fine-Grained AI-Generated Text Detection Using Multi-Task Auxiliary and Multi-Level Contrastive Learning

Arxiv

0+阅读 · 2月8日

Evaluating Prompt Engineering Strategies for Sentiment Control in AI-Generated Texts

Arxiv

0+阅读 · 2月6日

RobustExplain: Evaluating Robustness of LLM-Based Explanation Agents for Recommendation

Arxiv

0+阅读 · 2月3日

AICD Bench: A Challenging Benchmark for AI-Generated Code Detection

Arxiv

0+阅读 · 2月2日

AdaDetectGPT: Adaptive Detection of LLM-Generated Text with Statistical Guarantees

Arxiv

0+阅读 · 2月1日

Text-only adaptation in LLM-based ASR through text denoising

Arxiv

0+阅读 · 1月30日

相关基金

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员