Mathematical Foundations of Poisoning Attacks on Linear Regression over Cumulative Distribution Functions - 专知论文

会员服务 ·

0

攻击 · 中毒攻击 · 线性回归 · 最优 · 累积分布函数 ·

Mathematical Foundations of Poisoning Attacks on Linear Regression over Cumulative Distribution Functions

翻译：基于累积分布函数的线性回归中毒攻击的数学基础

Atsuki Sato,Martin Aumüller,Yusuke Matsui

from arxiv, SIGMOD 2026

Learned indexes are a class of index data structures that enable fast search by approximating the cumulative distribution function (CDF) using machine learning models (Kraska et al., SIGMOD'18). However, recent studies have shown that learned indexes are vulnerable to poisoning attacks, where injecting a small number of poison keys into the training data can significantly degrade model accuracy and reduce index performance (Kornaropoulos et al., SIGMOD'22). In this work, we provide a rigorous theoretical analysis of poisoning attacks targeting linear regression models over CDFs, one of the most basic regression models and a core component in many learned indexes. Our main contributions are as follows: (i) We present a theoretical proof characterizing the optimal single-point poisoning attack and show that the existing method yields the optimal attack. (ii) We show that in multi-point attacks, the existing greedy approach is not always optimal, and we rigorously derive the key properties that an optimal attack should satisfy. (iii) We propose a method to compute an upper bound of the multi-point poisoning attack's impact and empirically demonstrate that the loss under the greedy approach is often close to this bound. Our study deepens the theoretical understanding of attack strategies against linear regression models on CDFs and provides a foundation for the theoretical evaluation of attacks and defenses on learned indexes.

翻译：学习索引是一类索引数据结构，它通过使用机器学习模型近似累积分布函数（CDF）来实现快速搜索（Kraska等人，SIGMOD'18）。然而，最近的研究表明，学习索引容易受到中毒攻击，即在训练数据中注入少量中毒键可以显著降低模型精度并损害索引性能（Kornaropoulos等人，SIGMOD'22）。在这项工作中，我们对针对CDF上线性回归模型的中毒攻击进行了严格的理论分析，线性回归是最基础的回归模型之一，也是许多学习索引的核心组件。我们的主要贡献如下：（i）我们提出了一个理论证明，刻画了最优单点中毒攻击，并表明现有方法能够产生最优攻击。（ii）我们证明了在多点攻击中，现有的贪心方法并非总是最优的，并且我们严格推导了最优攻击应满足的关键性质。（iii）我们提出了一种计算多点中毒攻击影响上界的方法，并通过实验证明贪心方法下的损失通常接近该上界。我们的研究深化了对CDF上线性回归模型攻击策略的理论理解，并为学习索引攻击与防御的理论评估奠定了基础。

0

相关内容

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

30+阅读 · 2025年4月1日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

43+阅读 · 2024年9月22日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

专知会员服务

65+阅读 · 2022年4月29日

【经典书】计算和推理思维:数据科学的基础，631页pdf

专知会员服务

75+阅读 · 2021年10月15日

最新《机器学习数学基础》书册，109页pdf

最新《机器学习数学基础》书册，109页pdf

专知会员服务

81+阅读 · 2021年2月7日

深度学习模型的中毒攻击与防御综述

专知会员服务

68+阅读 · 2021年1月10日

【开放书】贝叶斯推理与机器学习，690页pdf，Bayesian Reasoning and Machine Learning

【开放书】贝叶斯推理与机器学习，690页pdf，Bayesian Reasoning and Machine Learning

专知会员服务

192+阅读 · 2020年5月30日

【机器学习与深度学习基础性算法】Foundational ML and DL Algorithms

【机器学习与深度学习基础性算法】Foundational ML and DL Algorithms

专知会员服务

34+阅读 · 2019年12月27日

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知

21+阅读 · 2022年7月3日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

专知

46+阅读 · 2019年12月9日

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

深度学习与NLP

17+阅读 · 2019年10月16日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

强强联合！数据和物理学“联手”构建神经网络模型PGNN

强强联合！数据和物理学“联手”构建神经网络模型PGNN

AI前线

10+阅读 · 2018年12月28日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

资源 | 用Python和NumPy学习《深度学习》中的线性代数基础

资源 | 用Python和NumPy学习《深度学习》中的线性代数基础

机器之心

18+阅读 · 2018年5月14日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval

Arxiv

0+阅读 · 3月16日

LAD: Learning Advantage Distribution for Reasoning

Arxiv

0+阅读 · 2月23日

Learning under Quantization for High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月16日

PBP: Post-training Backdoor Purification for Malware Classifiers

Arxiv

0+阅读 · 2月12日

Learning under Quantization for High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月11日

Linear Model Extraction via Factual and Counterfactual Queries

Arxiv

0+阅读 · 2月10日

One RNG to Rule Them All: How Randomness Becomes an Attack Vector in Machine Learning

Arxiv

0+阅读 · 2月9日

Dense Feature Learning via Linear Structure Preservation in Medical Data

Arxiv

0+阅读 · 2月7日

Designing a Robust, Bounded, and Smooth Loss Function for Improved Supervised Learning

Arxiv

0+阅读 · 2月6日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

累积分布函数

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

7+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

3+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

7+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

30+阅读 · 2025年4月1日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

43+阅读 · 2024年9月22日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

专知会员服务

65+阅读 · 2022年4月29日

【经典书】计算和推理思维:数据科学的基础，631页pdf

专知会员服务

75+阅读 · 2021年10月15日

最新《机器学习数学基础》书册，109页pdf

最新《机器学习数学基础》书册，109页pdf

专知会员服务

81+阅读 · 2021年2月7日

深度学习模型的中毒攻击与防御综述

专知会员服务

68+阅读 · 2021年1月10日

【开放书】贝叶斯推理与机器学习，690页pdf，Bayesian Reasoning and Machine Learning

【开放书】贝叶斯推理与机器学习，690页pdf，Bayesian Reasoning and Machine Learning

专知会员服务

192+阅读 · 2020年5月30日

【机器学习与深度学习基础性算法】Foundational ML and DL Algorithms

【机器学习与深度学习基础性算法】Foundational ML and DL Algorithms

专知会员服务

34+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

【干货书】深度学习数学：理解神经网络，347页pdf

【干货书】深度学习数学：理解神经网络，347页pdf

专知

21+阅读 · 2022年7月3日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

专知

46+阅读 · 2019年12月9日

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

深度学习与NLP

17+阅读 · 2019年10月16日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

强强联合！数据和物理学“联手”构建神经网络模型PGNN

强强联合！数据和物理学“联手”构建神经网络模型PGNN

AI前线

10+阅读 · 2018年12月28日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

资源 | 用Python和NumPy学习《深度学习》中的线性代数基础

资源 | 用Python和NumPy学习《深度学习》中的线性代数基础

机器之心

18+阅读 · 2018年5月14日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

相关论文

Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval

Arxiv

0+阅读 · 3月16日

LAD: Learning Advantage Distribution for Reasoning

Arxiv

0+阅读 · 2月23日

Learning under Quantization for High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月16日

PBP: Post-training Backdoor Purification for Malware Classifiers

Arxiv

0+阅读 · 2月12日

Learning under Quantization for High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月11日

Linear Model Extraction via Factual and Counterfactual Queries

Arxiv

0+阅读 · 2月10日

One RNG to Rule Them All: How Randomness Becomes an Attack Vector in Machine Learning

Arxiv

0+阅读 · 2月9日

Dense Feature Learning via Linear Structure Preservation in Medical Data

Arxiv

0+阅读 · 2月7日

Designing a Robust, Bounded, and Smooth Loss Function for Improved Supervised Learning

Arxiv

0+阅读 · 2月6日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员