How to sketch a learning algorithm - 专知论文

会员服务 ·

0

算法 · 学习算法 · 训练数据 · 人工智能模型 · 智能模型 ·

How to sketch a learning algorithm

翻译：如何勾画一个学习算法

How does the choice of training data influence an AI model? This question is of central importance to interpretability, privacy, and basic science. At its core is the data deletion problem: after a reasonable amount of precomputation, quickly predict how the model would behave in a given situation if a given subset of training data had been excluded from the learning algorithm. We present a data deletion scheme capable of predicting model outputs with vanishing error $\varepsilon$ in the deep learning setting. Our precomputation and prediction algorithms are only $\mathrm{poly}(1/\varepsilon)$ factors slower than regular training and inference, respectively. The storage requirements are those of $\mathrm{poly}(1/\varepsilon)$ models. Our proof is based on an assumption that we call "stability." In contrast to the assumptions made by prior work, stability appears to be fully compatible with learning powerful AI models. In support of this, we show that stability is satisfied in a minimal set of experiments with microgpt. Our code is available at https://github.com/SamSpo1/microgpt-sketch. At a technical level, our work is based on a new method for locally sketching an arithmetic circuit by computing higher-order derivatives in random complex directions. Forward-mode automatic differentiation allows cheap computation of these derivatives.

翻译：训练数据的选择如何影响人工智能模型？这一问题对于可解释性、隐私保护和基础科学至关重要。其核心是数据删除问题：在合理预计算后，快速预测若从学习算法中排除给定训练数据子集，模型在特定情境下的行为将如何变化。我们提出一种数据删除方案，能够在深度学习场景下以消失误差ε预测模型输出。我们的预计算和预测算法分别仅比常规训练和推理慢poly(1/ε)倍，存储需求相当于poly(1/ε)个模型的规模。我们的证明基于称为“稳定性”的假设。与先前工作所采用的假设不同，稳定性似乎与学习强大的人工智能模型完全兼容。为支持这一观点，我们通过微GPT的最小实验集验证了稳定性的满足。我们的代码公开于https://github.com/SamSpo1/microgpt-sketch。在技术层面，我们的工作基于一种新型方法：通过计算随机复方向上的高阶导数，局部勾画算术电路。前向模式自动微分使得这些导数的计算成本低廉。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

专知会员服务

28+阅读 · 2023年1月10日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知会员服务

106+阅读 · 2022年10月2日

258页简单学算法！《grokking算法图解指南》，grokking algorithms: An illustrated guide for programmers and other curious people

258页简单学算法！《grokking算法图解指南》，grokking algorithms: An illustrated guide for programmers and other curious people

专知会员服务

44+阅读 · 2022年4月5日

【NeurIPS 2021】基于次模优化的规则学习算法框架

【NeurIPS 2021】基于次模优化的规则学习算法框架

专知会员服务

34+阅读 · 2021年11月30日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

176+阅读 · 2021年3月19日

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

专知会员服务

24+阅读 · 2021年3月15日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

【知识图谱】知识图谱怎么与深度学习结合？

【知识图谱】知识图谱怎么与深度学习结合？

产业智能官

160+阅读 · 2018年12月18日

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

产业智能官

12+阅读 · 2018年4月6日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

一个强化学习 Q-learning 算法的简明教程

一个强化学习 Q-learning 算法的简明教程

数据挖掘入门与实战

10+阅读 · 2018年3月18日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

On the Role of Computation in Reinforcement Learning

Arxiv

0+阅读 · 6月15日

Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal

Arxiv

0+阅读 · 6月11日

SoK: Colluding Adversaries in Machine Learning Pipelines

Arxiv

0+阅读 · 6月8日

Exact Unlearning in Reinforcement Learning

Arxiv

0+阅读 · 6月2日

Learning How to Cube

Arxiv

0+阅读 · 5月15日

Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts

Arxiv

0+阅读 · 5月13日

Assessing Student Ability to Select an Algorithmic Paradigm

Arxiv

0+阅读 · 5月7日

A Systems Thinking Approach to Algorithmic Fairness

Arxiv

0+阅读 · 4月23日

How to sketch a learning algorithm

Arxiv

0+阅读 · 4月20日

Machine Unlearning: A Survey

Arxiv

16+阅读 · 2023年6月6日

VIP会员

文章信息

相关主题

人工智能模型

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

专知会员服务

28+阅读 · 2023年1月10日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知会员服务

106+阅读 · 2022年10月2日

258页简单学算法！《grokking算法图解指南》，grokking algorithms: An illustrated guide for programmers and other curious people

258页简单学算法！《grokking算法图解指南》，grokking algorithms: An illustrated guide for programmers and other curious people

专知会员服务

44+阅读 · 2022年4月5日

【NeurIPS 2021】基于次模优化的规则学习算法框架

【NeurIPS 2021】基于次模优化的规则学习算法框架

专知会员服务

34+阅读 · 2021年11月30日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

176+阅读 · 2021年3月19日

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

专知会员服务

24+阅读 · 2021年3月15日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

【知识图谱】知识图谱怎么与深度学习结合？

【知识图谱】知识图谱怎么与深度学习结合？

产业智能官

160+阅读 · 2018年12月18日

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

产业智能官

12+阅读 · 2018年4月6日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

一个强化学习 Q-learning 算法的简明教程

一个强化学习 Q-learning 算法的简明教程

数据挖掘入门与实战

10+阅读 · 2018年3月18日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

On the Role of Computation in Reinforcement Learning

Arxiv

0+阅读 · 6月15日

Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal

Arxiv

0+阅读 · 6月11日

SoK: Colluding Adversaries in Machine Learning Pipelines

Arxiv

0+阅读 · 6月8日

Exact Unlearning in Reinforcement Learning

Arxiv

0+阅读 · 6月2日

Learning How to Cube

Arxiv

0+阅读 · 5月15日

Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts

Arxiv

0+阅读 · 5月13日

Assessing Student Ability to Select an Algorithmic Paradigm

Arxiv

0+阅读 · 5月7日

A Systems Thinking Approach to Algorithmic Fairness

Arxiv

0+阅读 · 4月23日

How to sketch a learning algorithm

Arxiv

0+阅读 · 4月20日

Machine Unlearning: A Survey

Arxiv

16+阅读 · 2023年6月6日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员