MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control - 专知论文

会员服务 ·

0

移动设备 · 交互 · 基准 · 移动环境 · 鲁棒 ·

MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control

翻译：MobileSafetyBench：评估移动设备控制中自主代理的安全性

Juyong Lee,Dongyoon Hahm,June Suk Choi,W. Bradley Knox,Kimin Lee

Autonomous agents powered by large language models (LLMs) show promising potential in assistive tasks across various domains, including mobile device control. As these agents interact directly with personal information and device settings, ensuring their safe and reliable behavior is crucial to prevent undesirable outcomes. However, no benchmark exists for standardized evaluation of the safety of mobile device-control agents. In this work, we introduce MobileSafetyBench, a benchmark designed to evaluate the safety of device-control agents within a realistic mobile environment based on Android emulators. We develop a diverse set of tasks involving interactions with various mobile applications, including messaging and banking applications, challenging agents with managing risks encompassing misuse and negative side effects. These tasks include tests to evaluate the safety of agents in daily scenarios as well as their robustness against indirect prompt injection attacks. Our experiments demonstrate that baseline agents, based on state-of-the-art LLMs, often fail to effectively prevent harm while performing the tasks. To mitigate these safety concerns, we propose a prompting method that encourages agents to prioritize safety considerations. While this method shows promise in promoting safer behaviors, there is still considerable room for improvement to fully earn user trust. This highlights the urgent need for continued research to develop more robust safety mechanisms in mobile environments.

翻译：基于大型语言模型（LLM）的自主代理在包括移动设备控制在内的多个领域的辅助任务中展现出巨大潜力。由于这些代理直接与个人信息和设备设置交互，确保其行为安全可靠对于防止不良后果至关重要。然而，目前尚缺乏用于标准化评估移动设备控制代理安全性的基准。在本工作中，我们提出了MobileSafetyBench，这是一个基于Android模拟器、旨在现实移动环境中评估设备控制代理安全性的基准。我们开发了一套多样化的任务，涉及与包括消息和银行应用在内的各种移动应用程序的交互，通过管理涵盖误用和负面副作用的风险来挑战代理。这些任务包括评估代理在日常场景中的安全性以及其抵御间接提示注入攻击的鲁棒性测试。我们的实验表明，基于最先进LLM的基线代理在执行任务时往往无法有效防止危害。为了缓解这些安全问题，我们提出了一种提示方法，鼓励代理优先考虑安全因素。虽然该方法在促进更安全行为方面显示出潜力，但要完全赢得用户信任仍有相当大的改进空间。这凸显了持续研究以在移动环境中开发更鲁棒安全机制的迫切需求。

0

相关内容

移动设备

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

23+阅读 · 2025年10月24日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

基于大模型的智能体中由自主性引发的安全风险综述

基于大模型的智能体中由自主性引发的安全风险综述

专知会员服务

18+阅读 · 2025年7月1日

大型语言模型代理的安全与隐私综述

大型语言模型代理的安全与隐私综述

专知会员服务

30+阅读 · 2024年8月5日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

41+阅读 · 2024年7月31日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

专知

54+阅读 · 2022年6月4日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

产业智能官

15+阅读 · 2019年2月1日

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

厚势

14+阅读 · 2018年9月11日

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

黑白之道

34+阅读 · 2018年8月23日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向主动安全控制的工程车辆动态信息获取与状态辨识

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络环境下服务系统的自主管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

乳腺癌自我管理的行为机制及移动医疗智能管理模式的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

Defining and Evaluating Physical Safety for Large Language Models

Arxiv

0+阅读 · 2月19日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 2月9日

AutoCodeSherpa: Symbolic Explanations in AI Coding Agents

Arxiv

0+阅读 · 2月1日

AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor

Arxiv

0+阅读 · 1月31日

AI Kill Switch for malicious web-based LLM agent

Arxiv

0+阅读 · 1月29日

SafeSearch: Automated Red-Teaming of LLM-Based Search Agents

Arxiv

0+阅读 · 1月29日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

Secure and Efficient Access Control for Computer-Use Agents via Context Space

Arxiv

0+阅读 · 1月14日

Permission Manifests for Web Agents

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

最新内容

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

0+阅读 · 10分钟前

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

1+阅读 · 18分钟前

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

2+阅读 · 36分钟前

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

1+阅读 · 46分钟前

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

2+阅读 · 50分钟前

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

1+阅读 · 54分钟前

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

1+阅读 · 59分钟前

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

3+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

7+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

6+阅读 · 4月22日

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

4+阅读 · 4月22日

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

5+阅读 · 4月22日

相关VIP内容

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

23+阅读 · 2025年10月24日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

基于大模型的智能体中由自主性引发的安全风险综述

基于大模型的智能体中由自主性引发的安全风险综述

专知会员服务

18+阅读 · 2025年7月1日

大型语言模型代理的安全与隐私综述

大型语言模型代理的安全与隐私综述

专知会员服务

30+阅读 · 2024年8月5日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

41+阅读 · 2024年7月31日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《电子战数据交换模型研究报告》

《基于Transformer的异常舰船导航识别与跟踪》80页

《压缩式分布式交互仿真标准》120页

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

专知

54+阅读 · 2022年6月4日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

产业智能官

15+阅读 · 2019年2月1日

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

厚势

14+阅读 · 2018年9月11日

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

黑白之道

34+阅读 · 2018年8月23日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

相关论文

Defining and Evaluating Physical Safety for Large Language Models

Arxiv

0+阅读 · 2月19日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 2月9日

AutoCodeSherpa: Symbolic Explanations in AI Coding Agents

Arxiv

0+阅读 · 2月1日

AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor

Arxiv

0+阅读 · 1月31日

AI Kill Switch for malicious web-based LLM agent

Arxiv

0+阅读 · 1月29日

SafeSearch: Automated Red-Teaming of LLM-Based Search Agents

Arxiv

0+阅读 · 1月29日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

Secure and Efficient Access Control for Computer-Use Agents via Context Space

Arxiv

0+阅读 · 1月14日

Permission Manifests for Web Agents

Arxiv

0+阅读 · 1月12日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向主动安全控制的工程车辆动态信息获取与状态辨识

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络环境下服务系统的自主管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

乳腺癌自我管理的行为机制及移动医疗智能管理模式的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员