Can We Trust LLM Detectors? - 专知论文

会员服务 ·

0

检测器 · 监督 · AI · 语言模型 · 大语言模型 ·

Can We Trust LLM Detectors?

翻译：我们能否信任大型语言模型检测器？

Jivnesh Sandhan,Harshit Jaiswal,Fei Cheng,Yugo Murawaki

The rapid adoption of LLMs has increased the need for reliable AI text detection, yet existing detectors often fail outside controlled benchmarks. We systematically evaluate 2 dominant paradigms (training-free and supervised) and show that both are brittle under distribution shift, unseen generators, and simple stylistic perturbations. To address these limitations, we propose a supervised contrastive learning (SCL) framework that learns discriminative style embeddings. Experiments show that while supervised detectors excel in-domain, they degrade sharply out-of-domain, and training-free methods remain highly sensitive to proxy choice. Overall, our results expose fundamental challenges in building domain-agnostic detectors. Our code is available at: https://github.com/HARSHITJAIS14/DetectAI

翻译：随着大型语言模型（LLMs）的快速普及，对可靠AI文本检测的需求日益增长，然而现有检测器在受控基准测试之外常常失效。我们系统评估了两种主流范式（无训练方法与监督学习方法），结果表明二者在分布偏移、未知生成器及简单风格扰动下均表现脆弱。为应对这些局限，我们提出了一个监督对比学习（SCL）框架，用于学习具有判别力的风格嵌入向量。实验表明，监督检测器虽在域内表现优异，但在域外性能急剧下降；而无训练方法对代理选择仍高度敏感。总体而言，我们的研究揭示了构建领域无关检测器面临的根本性挑战。代码已开源：https://github.com/HARSHITJAIS14/DetectAI

0

相关内容

检测器

大语言模型用于军事用途是否安全？

大语言模型用于军事用途是否安全？

专知会员服务

29+阅读 · 2025年2月7日

【HKUST博士论文】增强大型语言模型的可信度：隐私与安全的视角

【HKUST博士论文】增强大型语言模型的可信度：隐私与安全的视角

专知会员服务

16+阅读 · 2025年1月28日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

40+阅读 · 2024年7月28日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

专知会员服务

66+阅读 · 2024年1月13日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

专知会员服务

51+阅读 · 2023年4月22日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs

Arxiv

0+阅读 · 2月19日

Who can we trust? LLM-as-a-jury for Comparative Assessment

Who can we trust? LLM-as-a-jury for Comparative Assessment

Arxiv

0+阅读 · 2月18日

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

Arxiv

0+阅读 · 2月17日

Can LLMs Handle WebShell Detection? Overcoming Detection Challenges with Behavioral Function-Aware Framework

Arxiv

0+阅读 · 2月11日

Can Large Language Models Make Everyone Happy?

Arxiv

0+阅读 · 2月11日

Can We Infer Confidential Properties of Training Data from LLMs?

Arxiv

0+阅读 · 2月9日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions

Arxiv

0+阅读 · 1月30日

Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions

Arxiv

0+阅读 · 1月20日

LLM-based relevance assessment still can't replace human relevance assessment

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

大语言模型

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

2+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

1+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

1+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

1+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

8+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

大语言模型用于军事用途是否安全？

大语言模型用于军事用途是否安全？

专知会员服务

29+阅读 · 2025年2月7日

【HKUST博士论文】增强大型语言模型的可信度：隐私与安全的视角

【HKUST博士论文】增强大型语言模型的可信度：隐私与安全的视角

专知会员服务

16+阅读 · 2025年1月28日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

40+阅读 · 2024年7月28日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

专知会员服务

66+阅读 · 2024年1月13日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

专知会员服务

51+阅读 · 2023年4月22日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

相关论文

Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs

Arxiv

0+阅读 · 2月19日

Who can we trust? LLM-as-a-jury for Comparative Assessment

Who can we trust? LLM-as-a-jury for Comparative Assessment

Arxiv

0+阅读 · 2月18日

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

Arxiv

0+阅读 · 2月17日

Can LLMs Handle WebShell Detection? Overcoming Detection Challenges with Behavioral Function-Aware Framework

Arxiv

0+阅读 · 2月11日

Can Large Language Models Make Everyone Happy?

Arxiv

0+阅读 · 2月11日

Can We Infer Confidential Properties of Training Data from LLMs?

Arxiv

0+阅读 · 2月9日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions

Arxiv

0+阅读 · 1月30日

Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions

Arxiv

0+阅读 · 1月20日

LLM-based relevance assessment still can't replace human relevance assessment

Arxiv

0+阅读 · 1月19日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员