Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy - 专知论文

会员服务 ·

0

Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy

翻译：别让AI智能体随意操控你的文件：将信息与控制权转移至文件系统以实现智能体安全与自主性

Shawn Wanxiang Zhong,Junxuan Liao,Jing Liu,Mai Zheng,Andrea C. Arpaci-Dusseau,Remzi H. Arpaci-Dusseau

AI coding agents operate directly on users' filesystems, where they regularly corrupt data, delete files, and leak secrets. Current approaches force a tradeoff between safety and autonomy: unrestricted access risks harm, while frequent permission prompts burden users and block agents. To understand this problem, we conduct the first systematic study of agent filesystem misuse, analyzing 290 public reports across 13 frameworks. Our analysis reveals that today's agents have limited information about their filesystem effects and insufficient control over them. We therefore argue for shifting this information and control to the filesystem itself. Based on this principle, we design YoloFS, an agent-native filesystem with three techniques. Staging isolates all mutations before commit, giving users corrective control. Snapshots extend this control to agents, letting them detect and correct their own mistakes. Progressive permission provides users with preventive control by gating access with minimal interaction. To evaluate YoloFS, we introduce a new methodology that captures user-agent-filesystem interactions. On 11 tasks with hidden side effects, YoloFS enables agent self-correction in 8 while keeping all effects staged and reviewable. On 112 routine tasks, YoloFS requires fewer user interactions while matching the baseline success rate.

翻译：AI编码智能体直接操作用户的文件系统，经常导致数据损坏、文件删除和机密泄露。当前方法在安全性与自主性之间强制权衡：无限制访问存在风险，而频繁权限提示则加重用户负担并阻碍智能体运行。为理解该问题，我们首次系统性地研究了智能体文件系统误用行为，分析了来自13个框架的290份公开报告。分析表明，当前智能体对其文件系统操作的影响了解有限、控制能力不足。因此，我们主张将信息与控制权转移至文件系统本身。基于这一原则，我们设计了YoloFS——一种面向智能体的原生文件系统，包含三项技术：暂存机制在提交前隔离所有修改，赋予用户修正性控制；快照机制将控制权扩展至智能体，使其能够检测并修正自身错误；渐进式权限通过最小化交互的访问控制为用户提供预防性控制。为评估YoloFS，我们提出了一种捕获用户-智能体-文件系统交互的新方法。在11项包含隐藏副作用的任务中，YoloFS使智能体在8项任务中实现自我修正，同时所有操作保持暂存与可审查状态。在112项常规任务中，YoloFS在匹配基线成功率的同时减少了用户交互次数。

0

相关内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

18+阅读 · 5月27日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

18+阅读 · 4月21日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

11+阅读 · 4月15日

【博士论文】已对齐 AI 系统的持续脆弱性

【博士论文】已对齐 AI 系统的持续脆弱性

专知会员服务

14+阅读 · 4月3日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

智能体任务执行安全要求

智能体任务执行安全要求

专知会员服务

19+阅读 · 2025年7月12日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

48+阅读 · 2023年7月23日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云的个人健康档案动态访问权限管理研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

An AI Agent Execution Environment to Safeguard User Data

Arxiv

0+阅读 · 4月21日

Evaluating Privilege Usage of Agents with Real-World Tools

Arxiv

0+阅读 · 4月20日

Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems

Arxiv

0+阅读 · 4月15日

Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy

Arxiv

0+阅读 · 4月15日

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

Arxiv

0+阅读 · 4月6日

Before the Tool Call: Deterministic Pre-Action Authorization for Autonomous AI Agents

Arxiv

0+阅读 · 3月21日

Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare

Arxiv

0+阅读 · 3月18日

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Arxiv

0+阅读 · 3月12日

Tracking Capabilities for Safer Agents

Arxiv

0+阅读 · 3月1日

The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

0+阅读 · 19分钟前

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

0+阅读 · 30分钟前

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

0+阅读 · 34分钟前

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

3+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

18+阅读 · 5月27日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

18+阅读 · 4月21日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

11+阅读 · 4月15日

【博士论文】已对齐 AI 系统的持续脆弱性

【博士论文】已对齐 AI 系统的持续脆弱性

专知会员服务

14+阅读 · 4月3日

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

保护网络物理系统中的 AI 智能体：关于环境交互、深度伪造威胁及其防御技术的综述

专知会员服务

10+阅读 · 2月15日

智能体任务执行安全要求

智能体任务执行安全要求

专知会员服务

19+阅读 · 2025年7月12日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

48+阅读 · 2023年7月23日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

在人工智能加速决策环境中拓展OODA循环

军事欺骗：供作战战术指挥官使用的工具

相关资讯

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

AI版权征文 | 日本人工智能发展及著作权问题上的选择与纠结（上篇）

百度公共政策研究院

10+阅读 · 2018年11月1日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

相关论文

An AI Agent Execution Environment to Safeguard User Data

Arxiv

0+阅读 · 4月21日

Evaluating Privilege Usage of Agents with Real-World Tools

Arxiv

0+阅读 · 4月20日

Formalizing the Safety, Security, and Functional Properties of Agentic AI Systems

Arxiv

0+阅读 · 4月15日

Don't Let AI Agents YOLO Your Files: Shifting Information and Control to Filesystems for Agent Safety and Autonomy

Arxiv

0+阅读 · 4月15日

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

Arxiv

0+阅读 · 4月6日

Before the Tool Call: Deterministic Pre-Action Authorization for Autonomous AI Agents

Arxiv

0+阅读 · 3月21日

Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare

Arxiv

0+阅读 · 3月18日

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Arxiv

0+阅读 · 3月12日

Tracking Capabilities for Safer Agents

Arxiv

0+阅读 · 3月1日

The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems

Arxiv

0+阅读 · 2月19日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云的个人健康档案动态访问权限管理研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员