LLM Watermark Evasion via Bias Inversion - 专知论文

会员服务 ·

0

有偏 · 词元分析器 · 稳健性 · 黑盒 · 可约的 ·

LLM Watermark Evasion via Bias Inversion

翻译：暂无翻译

Jeongyeon Hwang,Sangdon Park,Jungseul Ok

Watermarking offers a promising solution for detecting LLM-generated content, yet its robustness under realistic query-free (black-box) evasion remains an open challenge. Existing query-free attacks often achieve limited success or severely distort semantic meaning. We bridge this gap by theoretically analyzing rewriting-based evasion, demonstrating that reducing the average conditional probability of sampling green tokens by a small margin causes the detection probability to decay exponentially. Guided by this insight, we propose the \emph{Bias-Inversion Rewriting Attack} (BIRA), a practical query-free method that applies a negative logit bias to a proxy suppression set identified via token surprisal. Empirically, BIRA achieves state-of-the-art evasion rates ($>99\%$) across diverse watermarking schemes while preserving semantic fidelity substantially better than prior baselines. Our findings reveal a fundamental vulnerability in current watermarking methods and highlight the need for rigorous stress tests. Our code is available at \href{https://github.com/ml-postech/LLM-Watermark-Evasion-via-Bias-Inversion}{here}.

翻译：暂无翻译

0

相关内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

打造 LLMOps 时代 Prompt 数据驱动引擎

打造 LLMOps 时代 Prompt 数据驱动引擎

专知会员服务

34+阅读 · 2024年8月23日

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

23+阅读 · 2024年8月22日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

64+阅读 · 2024年3月4日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

万字长文: 检索增强 LLM

万字长文: 检索增强 LLM

专知会员服务

111+阅读 · 2023年9月17日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

【2019-26期】This Week in Extracellular Vesicles

【2019-26期】This Week in Extracellular Vesicles

外泌体之家

11+阅读 · 2019年6月28日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

赛尔笔记 | BiLSTM介绍及代码实现

赛尔笔记 | BiLSTM介绍及代码实现

哈工大SCIR

23+阅读 · 2018年10月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

自然语言处理 (三)　之　word embedding

自然语言处理 (三)　之　word embedding

DeepLearning中文论坛

19+阅读 · 2015年8月3日

水体中典型碳纳米材料-内分泌干扰物复合污染的生物交互效应及机制

国家自然科学基金

0+阅读 · 2015年12月31日

水生植物形态变化对泥水界面破坏及污染物释放的水动力学影响

国家自然科学基金

0+阅读 · 2015年12月31日

水泵水轮机泵工况FLI驼峰与迟滞效应流动机理的研究

国家自然科学基金

0+阅读 · 2015年12月31日

纳米氧化锌对河流凋落物降解的影响及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

纳米复合填充物对水树的修复及其在多因子老化下的作用机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

南水北调东线工程实施中调蓄湖泊蓝藻种群的响应机制

国家自然科学基金

0+阅读 · 2014年12月31日

节水改造对大型干旱灌区水盐运移过程的影响机理及生态环境效应

国家自然科学基金

0+阅读 · 2014年12月31日

水基纳米流体对金属腐蚀及腐蚀抑制机理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

水溶液中多种痕量重金属元素的高灵敏度激光诱导击穿光谱

国家自然科学基金

0+阅读 · 2014年12月31日

基于流动体系的再生水管道腐蚀垢层形成机理及动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

From Drift to Coherence: Stabilizing Beliefs in LLMs

Arxiv

0+阅读 · 6月18日

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

Arxiv

0+阅读 · 6月16日

LUMEN: Coordinated Failure Recovery for Distributed LLM Serving

Arxiv

0+阅读 · 6月16日

SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

Arxiv

0+阅读 · 6月12日

NeST: Neuron Selective Tuning for LLM Safety

Arxiv

0+阅读 · 6月12日

Flaws in the LLM Automation Narrative

Arxiv

0+阅读 · 6月9日

ArcMark: Distortion-Free Multi-Byte LLM Watermark via Optimal Transport

Arxiv

0+阅读 · 5月22日

LLM Benchmark Datasets Should Be Contamination-Resistant

Arxiv

0+阅读 · 5月19日

LLM hallucinations in the wild: Large-scale evidence from non-existent citations

Arxiv

0+阅读 · 5月8日

Visual Fingerprints for LLM Generation Comparison

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

词元分析器

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

打造 LLMOps 时代 Prompt 数据驱动引擎

打造 LLMOps 时代 Prompt 数据驱动引擎

专知会员服务

34+阅读 · 2024年8月23日

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

【CIKM2024】LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

专知会员服务

23+阅读 · 2024年8月22日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

64+阅读 · 2024年3月4日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

万字长文: 检索增强 LLM

万字长文: 检索增强 LLM

专知会员服务

111+阅读 · 2023年9月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

【2019-26期】This Week in Extracellular Vesicles

【2019-26期】This Week in Extracellular Vesicles

外泌体之家

11+阅读 · 2019年6月28日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

赛尔笔记 | BiLSTM介绍及代码实现

赛尔笔记 | BiLSTM介绍及代码实现

哈工大SCIR

23+阅读 · 2018年10月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

自然语言处理 (三)　之　word embedding

自然语言处理 (三)　之　word embedding

DeepLearning中文论坛

19+阅读 · 2015年8月3日

相关论文

From Drift to Coherence: Stabilizing Beliefs in LLMs

Arxiv

0+阅读 · 6月18日

Signature filtering: a lightweight enhancement for statistical watermark detection in large language models

Arxiv

0+阅读 · 6月16日

LUMEN: Coordinated Failure Recovery for Distributed LLM Serving

Arxiv

0+阅读 · 6月16日

SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

Arxiv

0+阅读 · 6月12日

NeST: Neuron Selective Tuning for LLM Safety

Arxiv

0+阅读 · 6月12日

Flaws in the LLM Automation Narrative

Arxiv

0+阅读 · 6月9日

ArcMark: Distortion-Free Multi-Byte LLM Watermark via Optimal Transport

Arxiv

0+阅读 · 5月22日

LLM Benchmark Datasets Should Be Contamination-Resistant

Arxiv

0+阅读 · 5月19日

LLM hallucinations in the wild: Large-scale evidence from non-existent citations

Arxiv

0+阅读 · 5月8日

Visual Fingerprints for LLM Generation Comparison

Arxiv

0+阅读 · 5月7日

相关基金

水体中典型碳纳米材料-内分泌干扰物复合污染的生物交互效应及机制

国家自然科学基金

0+阅读 · 2015年12月31日

水生植物形态变化对泥水界面破坏及污染物释放的水动力学影响

国家自然科学基金

0+阅读 · 2015年12月31日

水泵水轮机泵工况FLI驼峰与迟滞效应流动机理的研究

国家自然科学基金

0+阅读 · 2015年12月31日

纳米氧化锌对河流凋落物降解的影响及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

纳米复合填充物对水树的修复及其在多因子老化下的作用机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

南水北调东线工程实施中调蓄湖泊蓝藻种群的响应机制

国家自然科学基金

0+阅读 · 2014年12月31日

节水改造对大型干旱灌区水盐运移过程的影响机理及生态环境效应

国家自然科学基金

0+阅读 · 2014年12月31日

水基纳米流体对金属腐蚀及腐蚀抑制机理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

水溶液中多种痕量重金属元素的高灵敏度激光诱导击穿光谱

国家自然科学基金

0+阅读 · 2014年12月31日

基于流动体系的再生水管道腐蚀垢层形成机理及动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员