函数调用智能体的蓝队测试 (Blue Teaming Function-Calling Agents) - 专知论文

会员服务 ·

0

攻击 · 鲁棒 · 防御策略 · 有效性 · 智能体 ·

Blue Teaming Function-Calling Agents

翻译：函数调用智能体的蓝队测试

Greta Dolcetti,Giulio Zizzo,Sergio Maffeis

from arxiv, This work has been accepted to appear at the AAAI 2026 Workshop on Trust and Control in Agentic AI (TrustAgent)

We present an experimental evaluation that assesses the robustness of four open source LLMs claiming function-calling capabilities against three different attacks, and we measure the effectiveness of eight different defences. Our results show how these models are not safe by default, and how the defences are not yet employable in real-world scenarios.

翻译：我们通过实验评估了四种声称具备函数调用能力的开源大语言模型对三种不同攻击的鲁棒性，并测量了八种不同防御策略的有效性。研究结果表明，这些模型在默认状态下并不安全，且现有防御方案尚未达到可在实际场景中部署的水平。

0

相关内容

【伯克利博士论文】协同语言智能体

【伯克利博士论文】协同语言智能体

专知会员服务

21+阅读 · 1月10日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

17+阅读 · 2025年11月26日

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

专知会员服务

21+阅读 · 2025年9月15日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

15+阅读 · 2025年9月2日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

通用人工智能：是什么？如何测试？如何实现？

通用人工智能：是什么？如何测试？如何实现？

专知会员服务

27+阅读 · 2024年6月19日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

用PyTorch做物体检测和追踪

用PyTorch做物体检测和追踪

AI研习社

12+阅读 · 2019年1月6日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 2月9日

DREAM: Dynamic Red-teaming across Environments for AI Models

Arxiv

0+阅读 · 2月2日

Measuring Agents in Production

Arxiv

0+阅读 · 1月30日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 1月30日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

RvB: Automating AI System Hardening via Iterative Red-Blue Games

Arxiv

0+阅读 · 1月27日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 1月27日

Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs

Arxiv

0+阅读 · 1月20日

AgenticRed: Optimizing Agentic Systems for Automated Red-teaming

Arxiv

0+阅读 · 1月20日

Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

7+阅读 · 今天6:31

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

5+阅读 · 今天6:28

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

1+阅读 · 今天6:23

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

4+阅读 · 今天6:19

美军有人-无人协同作战的下一阶段演进：分布式电子战构想

美军有人-无人协同作战的下一阶段演进：分布式电子战构想

专知会员服务

2+阅读 · 今天6:06

不对称优势上升：自主系统如何强化海上拒止

不对称优势上升：自主系统如何强化海上拒止

专知会员服务

1+阅读 · 今天5:51

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

专知会员服务

4+阅读 · 4月17日

美军“数据2030”概念设想：数字化杀伤链统一标准

美军“数据2030”概念设想：数字化杀伤链统一标准

专知会员服务

3+阅读 · 4月17日

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

6+阅读 · 4月17日

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

2+阅读 · 4月17日

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

3+阅读 · 4月17日

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

2+阅读 · 4月17日

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

2+阅读 · 4月17日

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

2+阅读 · 4月17日

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

4+阅读 · 4月17日

相关VIP内容

【伯克利博士论文】协同语言智能体

【伯克利博士论文】协同语言智能体

专知会员服务

21+阅读 · 1月10日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

17+阅读 · 2025年11月26日

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

专知会员服务

21+阅读 · 2025年9月15日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

15+阅读 · 2025年9月2日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

通用人工智能：是什么？如何测试？如何实现？

通用人工智能：是什么？如何测试？如何实现？

专知会员服务

27+阅读 · 2024年6月19日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《第四代军事特种作战部队选拔与评估》

相关资讯

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

用PyTorch做物体检测和追踪

用PyTorch做物体检测和追踪

AI研习社

12+阅读 · 2019年1月6日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

相关论文

MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 2月9日

DREAM: Dynamic Red-teaming across Environments for AI Models

Arxiv

0+阅读 · 2月2日

Measuring Agents in Production

Arxiv

0+阅读 · 1月30日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 1月30日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

RvB: Automating AI System Hardening via Iterative Red-Blue Games

Arxiv

0+阅读 · 1月27日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 1月27日

Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs

Arxiv

0+阅读 · 1月20日

AgenticRed: Optimizing Agentic Systems for Automated Red-teaming

Arxiv

0+阅读 · 1月20日

Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay

Arxiv

0+阅读 · 1月15日

相关基金

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员