The KV-cache is the right memory for datacenters but the wrong memory for robots. Datacenter inference batches many short requests and resets them, amortizing an attention cache across a crowd. Embodied agents instead run one long, non-resetting episode on bandwidth-limited edge hardware, where high-bandwidth memory and flash are scarce, flash has finite write endurance, and memory writes rather than compute can become the binding constraint. AURA-Mem (Action-Utility Recurrent Adaptive Memory) targets this regime. It wraps a frozen vision-language-action backbone with a constant-size recurrent memory and a learned gate that writes only when the current observation would change the next action: memory that knows when to stay silent. Unlike reconstruction-based memory, the gate is trained directly against a closed-loop action-error signal. Its inference state is fixed at 4,224 bytes regardless of horizon, while a KV-cache grows to 6,061 times larger at 100,000 steps. On a controlled synthetic benchmark, AURA-Mem matches the best O(1) baseline in accuracy while using 5.19-6.13 times fewer writes, and up to 9.19 times fewer writes on easier configurations. Budget-matched random and periodic schedules do not recover this gain, isolating the benefit to the action-surprise signal. On a trained closed-loop OpenVLA-OFT 7B panel on LIBERO-Long (n=60 episodes per arm), the gate does not hurt success: AURA-Mem matches the ungated base policy (0.233) and slightly exceeds an always-write KV arm (0.217), while using 7.0 times fewer writes and constant memory. We also instantiate an approximate-information-state value-loss bound as a methodology demonstration; at this scale, the bound is vacuous rather than a guarantee.


翻译:KV缓存是数据中心适用的记忆,却并非机器人适用的记忆。数据中心推理时批量处理大量短请求并重置它们,在群体间分摊注意力缓存。而具身智能体则在带宽受限的边缘硬件上运行一个连续不断且不复位的长线程,此处高带宽内存和闪存稀缺,闪存写入寿命有限,内存写入而非计算可能成为约束瓶颈。AURA-Mem(动作效用循环自适应记忆)针对这一场景设计。它用一个恒定大小的循环记忆和一个学习到的门控机制来包裹冻结的视觉-语言-动作骨干网络,该门控仅在当前观测会改变下一动作时执行写入:一种懂得何时保持静默的记忆。与基于重建的记忆不同,该门控直接针对闭环动作误差信号进行训练。其推理状态固定为4,224字节,不受时间跨度影响,而KV缓存则在10万步时增长至其6,061倍。在受控的合成基准测试中,AURA-Mem在精度上匹配最佳O(1)基线,同时写入次数减少5.19至6.13倍,在较简单配置下写入次数最多减少9.19倍。预算匹配的随机和周期性调度无法恢复这一增益,从而将效益归因于动作意外信号。在LIBERO-Long数据集上训练的闭环OpenVLA-OFT 7B面板测试中(每臂n=60个线程),该门控并未损害成功率:AURA-Mem匹配无门控基础策略(0.233),并略优于始终写入的KV方案(0.217),同时写入次数减少7.0倍且内存恒定。我们还实例化了一个近似信息状态值损失界限作为方法论演示;在此规模下,该界限是空洞的而非保证。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
10+阅读 · 2月19日
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
36+阅读 · 2025年12月16日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 4分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 16分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 36分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员