Vision-Language-Action (VLA) models map multimodal perception and language instructions to executable robot actions, making them particularly vulnerable to behavioral backdoor manipulation: a hidden trigger introduced during training can induce unintended physical actions while nominal task performance remains intact. Prior work on VLA backdoors primarily studies untargeted attacks or task-level hijacking, leaving fine-grained control over individual actions largely unexplored. In this work, we present DropVLA, an action-level backdoor attack that forces a reusable action primitive (e.g., open_gripper) to execute at attacker-chosen decision points under a realistic pipeline-black-box setting with limited data-poisoning access, using a window-consistent relabeling scheme for chunked fine-tuning. On OpenVLA-7B evaluated with LIBERO, vision-only poisoning achieves 98.67%-99.83% attack success rate (ASR) with only 0.31% poisoned episodes while preserving 98.50%-99.17% clean-task retention, and successfully triggers the targeted action within 25 control steps at 500 Hz (0.05 s). Text-only triggers are unstable at low poisoning budgets, and combining text with vision provides no consistent ASR improvement over vision-only attacks. The backdoor remains robust to moderate trigger variations and transfers across evaluation suites (96.27%, 99.09%), whereas text-only largely fails (0.72%). We further validate physical-world feasibility on a 7-DoF Franka arm with pi0-fast, demonstrating non-trivial attack efficacy under camera-relative motion that induces image-plane trigger drift. These results reveal that VLA models can be covertly steered at the granularity of safety-critical actions with minimal poisoning and without observable degradation of nominal performance.


翻译:视觉-语言-动作模型将多模态感知和语言指令映射为可执行的机器人动作,这使其特别容易受到行为后门操控:训练过程中引入的隐蔽触发器可在名义任务性能保持完好的情况下,诱发非预期的物理动作。先前关于VLA后门的研究主要集中于无目标攻击或任务级劫持,对个体动作的细粒度控制则尚未深入探索。本文提出DropVLA,一种动作级后门攻击方法,通过在分块微调中采用窗口一致性重标注方案,在数据投毒访问受限的现实管道黑盒设置下,强制可复用的动作基元在攻击者选定的决策点执行。在基于LIBERO评估的OpenVLA-7B模型上,仅视觉投毒以0.31%的污染片段比例实现了98.67%-99.83%的攻击成功率,同时保持98.50%-99.17%的洁净任务保留率,并能在500Hz控制频率下于25个控制步内成功触发目标动作。纯文本触发器在低投毒预算下表现不稳定,而视觉与文本结合的触发方式相比纯视觉攻击未能带来一致的ASR提升。该后门对中等程度的触发器变化保持鲁棒,并能跨评估套件迁移,而纯文本触发器则基本失效。我们进一步在7自由度Franka机械臂上使用pi0-fast验证了物理世界的可行性,证明了在引发图像平面触发器漂移的相机相对运动下,攻击仍具有显著效力。这些结果表明,VLA模型可在安全关键动作的粒度上被隐蔽操控,且只需极少的投毒数据,同时不会导致名义性能的明显下降。

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
TheFatRat 一款简易后门工具
黑白之道
36+阅读 · 2019年10月23日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
1+阅读 · 23分钟前
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
2+阅读 · 38分钟前
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 50分钟前
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
3+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员