Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization - 专知论文

会员服务 ·

0

鲁棒 · 对抗 · 对齐 · 正则化 · 系统 ·

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

翻译：基于对抗对齐雅可比正则化的智能体AI系统鲁棒性

Furkan Mumcu,Yasin Yilmaz

As Large Language Models (LLMs) transition into autonomous multi-agent ecosystems, robust minimax training becomes essential yet remains prone to instability when highly non-linear policies induce extreme local curvature in the inner maximization. Standard remedies that enforce global Jacobian bounds are overly conservative, suppressing sensitivity in all directions and inducing a large Price of Robustness. We introduce Adversarially-Aligned Jacobian Regularization (AAJR), a trajectory-aligned approach that controls sensitivity strictly along adversarial ascent directions. We prove that AAJR yields a strictly larger admissible policy class than global constraints under mild conditions, implying a weakly smaller approximation gap and reduced nominal performance degradation. Furthermore, we derive step-size conditions under which AAJR controls effective smoothness along optimization trajectories and ensures inner-loop stability. These results provide a structural theory for agentic robustness that decouples minimax stability from global expressivity restrictions.

翻译：随着大型语言模型（LLM）向自主多智能体生态系统演进，鲁棒的极小极大训练变得至关重要，但当高度非线性的策略在内部最大化过程中引发极端局部曲率时，该方法仍易出现不稳定性。强制全局雅可比界限的标准修正方法过于保守，会抑制所有方向上的敏感性，并导致巨大的鲁棒性代价。本文提出对抗对齐雅可比正则化（AAJR），这是一种轨迹对齐方法，可严格沿对抗上升方向控制敏感性。我们证明，在温和条件下，AAJR产生的允许策略类严格大于全局约束下的策略类，这意味着近似间隙弱减小且名义性能退化降低。此外，我们推导了步长条件，在该条件下AAJR能沿优化轨迹控制有效平滑度并确保内循环稳定性。这些结果为智能体鲁棒性提供了一种结构理论，将极小极大稳定性与全局表达能力限制解耦。

0

相关内容

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

专知会员服务

9+阅读 · 3月20日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

24+阅读 · 2025年12月10日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

专知会员服务

57+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

专知会员服务

91+阅读 · 2022年5月3日

复杂网络能控性鲁棒性研究进展

专知会员服务

26+阅读 · 2021年6月9日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

非线性不确定系统的齐次控制理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

Rotated Robustness: A Training-Free Defense against Bit-Flip Attacks on Large Language Models

Arxiv

0+阅读 · 3月17日

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains

Arxiv

0+阅读 · 3月10日

Complete Robust Hybrid Systems Reachability

Arxiv

0+阅读 · 2月26日

A Theoretical Framework for Modular Learning of Robust Generative Models

Arxiv

0+阅读 · 2月19日

EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming

Arxiv

0+阅读 · 2月15日

Verification of Robust Multi-Agent Systems

Arxiv

0+阅读 · 2月13日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月6日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月2日

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

2+阅读 · 43分钟前

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

0+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

1+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

0+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

1+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

4+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

6+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

8+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

11+阅读 · 4月21日

相关VIP内容

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

《鲁棒优化中保形预测生成不确定性集的性能评价》最新95页

专知会员服务

9+阅读 · 3月20日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

24+阅读 · 2025年12月10日

【博士论文】对抗鲁棒性深度学习算法

【博士论文】对抗鲁棒性深度学习算法

专知会员服务

16+阅读 · 2025年9月29日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

25+阅读 · 2022年11月2日

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

专知会员服务

57+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

《人工智能在混合战争中的鲁棒性》美英德等8个国家的9个国防单位联合发表

专知会员服务

91+阅读 · 2022年5月3日

复杂网络能控性鲁棒性研究进展

专知会员服务

26+阅读 · 2021年6月9日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能即服务与未来战争（印度视角）

电子战革命：塑造战场的十年突破（2015–2025）

《基于模型的系统工程框架及其在电子战系统中的应用》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

相关论文

Rotated Robustness: A Training-Free Defense against Bit-Flip Attacks on Large Language Models

Arxiv

0+阅读 · 3月17日

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains

Arxiv

0+阅读 · 3月10日

Complete Robust Hybrid Systems Reachability

Arxiv

0+阅读 · 2月26日

A Theoretical Framework for Modular Learning of Robust Generative Models

Arxiv

0+阅读 · 2月19日

EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming

Arxiv

0+阅读 · 2月15日

Verification of Robust Multi-Agent Systems

Arxiv

0+阅读 · 2月13日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月6日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月2日

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Arxiv

0+阅读 · 1月30日

相关基金

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

非线性切换系统在线鲁棒近似优化控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

非线性不确定系统的齐次控制理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员