Red-teaming Vision-Language Models is essential for identifying vulnerabilities where adversarial image-text inputs trigger toxic outputs. Existing approaches treat image generation as a black box, returning only terminal toxicity scores and leaving open the question of when and how toxic semantics emerge during multi-step synthesis. We introduce STARE, a hierarchical reinforcement learning framework that treats the denoising trajectory itself as the attack surface, under a direct white-box T2I and query-only black-box VLM setting. By coupling a high-level prompt editor with low-level T2I fine-tuning via Group Relative Policy Optimization (GRPO), STARE attains a 68\% improvement in Attack Success Rate over state-of-the-art black-box and white-box baselines. More importantly, this trajectory-level view surfaces the Optimization-Induced Phase Alignment phenomenon: vanilla models exhibit diffuse toxicity, whereas adversarial optimization concentrates conceptual harms into early semantic phases and detail-oriented harms into late refinement. Targeted perturbations of either window selectively suppress different toxicity categories, indicating that this temporal structure is a genuine causal handle rather than a side effect of the hierarchical design. The phenomenon turns toxicity formation from a chaotic process into a small set of predictable vulnerability windows, providing both a potent attack engine and a basis for phase-aware safety mechanisms. Content warning: This paper contains examples of toxic content that may be offensive or disturbing.


翻译:红队测试视觉-语言模型对于识别由对抗性图文输入引发毒性输出的漏洞至关重要。现有方法将图像生成视为黑盒,仅返回最终毒性分数,而未能回答在逐步合成过程中毒性语义何时及如何涌现的问题。我们提出STARE,一种层次化强化学习框架,将去噪轨迹本身视为攻击面,在直接白盒文本到图像(T2I)与仅查询的黑盒视觉-语言模型(VLM)设置下工作。通过将高层提示编辑器与基于组相对策略优化(GRPO)的低层T2I微调相结合,STARE在攻击成功率上相较于最先进的黑盒与白盒基线实现了68%的提升。更重要的是,这种轨迹级视角揭示了“优化诱导的相位对齐”现象:普通模型表现出弥散性毒性,而对抗优化将概念性危害集中于早期语义相位,将细节导向性危害集中于后期精炼相位。对任一时窗的定向扰动可选择性地抑制不同毒性类别,表明这种时间结构是一个真正的因果控制手段,而非层次化设计的副产品。该现象将毒性形成过程从混沌状态转化为一组可预测的漏洞时窗,既提供了强大的攻击引擎,也为相位感知的安全机制奠定了基础。内容警告:本文包含可能具有冒犯性或引发不适的毒性内容示例。

0
下载
关闭预览

相关内容

《用于建模系统攻击路径的强化学习环境》
专知会员服务
21+阅读 · 3月5日
《大语言模型驱动的智能红队测试》
专知会员服务
17+阅读 · 2025年11月26日
专知会员服务
34+阅读 · 2021年9月16日
编辑推荐 | 红外弱小目标检测算法综述
中国图象图形学报
21+阅读 · 2020年10月12日
Uber开源实时多任务、多传感器融合3D目标检测方法!
计算机视觉life
11+阅读 · 2020年7月15日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
7+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
《用于建模系统攻击路径的强化学习环境》
专知会员服务
21+阅读 · 3月5日
《大语言模型驱动的智能红队测试》
专知会员服务
17+阅读 · 2025年11月26日
专知会员服务
34+阅读 · 2021年9月16日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员