LLM-powered AI agents require high-frequency state exploration (e.g., test-time tree search and reinforcement learning), relying on rapid checkpoint and rollback (C/R) of the complete sandbox state, including files and process state (e.g., memory, contexts, etc.). Existing mechanisms duplicate the entire state, causing hundreds of milliseconds to seconds of latency per C/R, which severely bottlenecks deep search and large-scale fan-outs. This paper observes that subsequent checkpoints in AI agents are highly similar. Therefore, instead of full duplication, a sandbox should only duplicate the changes between consecutive checkpoints (Key Insight). However, it is non-trivial to realize the idea, mainly due to the missing OS supports. This paper proposes a new OS-level abstraction, DeltaState, to enable the change-based transactional C/R for AI agents with two co-designed OS mechanisms. First, DeltaFS enables change-based filesystem C/R by organizing the file states into layers and dynamically freezing the writable layer and inserting a new one during checkpoint, reducing file updates to copy-on-write, and making rollback a simple layer switch. Second, DeltaCR enables change-based process state C/R using incremental dumps, and accelerates rollback by bypassing traditional pipelines to directly fork() from a frozen template process. We then present DeltaBox, a novel agent sandbox achieving millisecond level C/R through the two new mechanisms. Evaluations on SWE-bench and RL micro-benchmarks show DeltaBox completes checkpoint and rollback in millisecond-level latency (14ms and 5ms, respectively), empowering agents to explore substantially more nodes under fixed time budgets.


翻译:基于大语言模型的AI代理需要高频状态探索(如测试时树搜索和强化学习),这依赖于对包含文件与进程状态(如内存、上下文等)的完整沙箱状态进行快速检查点/回滚操作。现有机制通过完整状态复制导致每次检查点/回滚产生数百毫秒至数秒延迟,严重制约深度搜索和大规模扇出操作。本文观察到AI代理中连续检查点具有高度相似性,因此沙箱应仅复制连续检查点间的变更(核心洞察)而非全量复制。然而,由于操作系统支持的缺失,实现该构想面临重大挑战。本文提出新型操作系统级抽象DeltaState,通过两个协同设计的操作系统机制实现基于变更的AI代理事务性检查点/回滚。首先,DeltaFS通过将文件状态组织为分层结构,在检查点时动态冻结可写层并插入新层,将文件更新降级为写时复制,使回滚简化为分层切换,从而实现基于变更的文件系统检查点/回滚。其次,DeltaCR采用增量转储实现基于变更的进程状态检查点/回滚,并通过绕过传统管线直接从冻结模板进程执行fork()来加速回滚。我们进而提出DeltaBox——通过上述两种新机制实现毫秒级检查点/回滚的新型代理沙箱。在SWE-bench和强化学习微基准测试中的评估表明,DeltaBox的检查点和回滚延迟分别达到14毫秒和5毫秒的毫秒级水平,使代理能在固定时间预算下探索显著更多的节点。

0
下载
关闭预览

相关内容

AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
FoveaBox,超越Anchor-Based的检测器
极市平台
10+阅读 · 2019年4月22日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员