VirtualCrime: Evaluating Criminal Potential of Large Language Models via Sandbox Simulation - 专知论文

会员服务 ·

0

VirtualCrime: Evaluating Criminal Potential of Large Language Models via Sandbox Simulation

翻译：VirtualCrime：基于沙盒模拟评估大语言模型的犯罪潜力

Yilin Tang,Yu Wang,Lanlan Qiu,Wenchang Gao,Yunfei Ma,Baicheng Chen,Tianxing He

Large language models (LLMs) have shown strong capabilities in multi-step decision-making, planning and actions, and are increasingly integrated into various real-world applications. It is concerning whether their strong problem-solving abilities may be misused for crimes. To address this gap, we propose VirtualCrime, a sandbox simulation framework based on a three-agent system to evaluate the criminal capabilities of models. Specifically, this framework consists of an attacker agent acting as the leader of a criminal team, a judge agent determining the outcome of each action, and a world manager agent updating the environment state and entities. Furthermore, we design 40 diverse crime tasks within this framework, covering 11 maps and 13 crime objectives such as theft, robbery, kidnapping, and riot. We also introduce a human player baseline for reference to better interpret the performance of LLM agents. We evaluate 8 strong LLMs and find (1) All agents in the simulation environment compliantly generate detailed plans and execute intelligent crime processes, with some achieving relatively high success rates; (2) In some cases, agents take severe action that inflicts harm to NPCs to achieve their goals. Our work highlights the need for safety alignment when deploying agentic AI in real-world settings.

翻译：大语言模型在多步决策、规划与行动方面展现出强大能力，并逐渐融入各类实际应用。令人担忧的是，其强大的问题解决能力是否可能被滥用于犯罪活动。为填补这一研究空白，我们提出VirtualCrime——一种基于三智能体系统的沙盒模拟框架，用于评估模型的犯罪能力。具体而言，该框架包含三个核心角色：作为犯罪团队领导者的攻击型智能体、判定行动结果的裁决型智能体，以及负责更新环境状态与实体的世界管理型智能体。在此基础上，我们设计覆盖11个地图场景、包含盗窃、抢劫、绑架、暴乱等13类犯罪目标的40项多样化犯罪任务，并引入人类玩家基线作为参照，以更准确解读大语言模型智能体的表现。通过对8个强模型进行评估，我们发现：（1）所有模拟环境中的智能体均能合规生成详细犯罪计划并执行智能化犯罪流程，部分模型取得较高成功率；（2）在某些情况下，智能体为达成目标会对非玩家角色采取造成伤害的极端行为。本研究表明，在现实场景部署具身人工智能时，必须进行安全对齐。

0

相关内容

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

20+阅读 · 5月7日

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

9+阅读 · 5月3日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

25+阅读 · 3月18日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

大视觉语言模型在多模态虚假新闻检测中的应用综述

大视觉语言模型在多模态虚假新闻检测中的应用综述

专知会员服务

17+阅读 · 1月27日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

49+阅读 · 2024年7月9日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

开放知识图谱

15+阅读 · 2019年5月7日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

多尺度时空特征约束的犯罪预测方法—以入室盗窃为例

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

大规模爆炸场数值模拟实时交互可视化软件

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning

Arxiv

0+阅读 · 4月29日

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

Arxiv

0+阅读 · 4月27日

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

Arxiv

0+阅读 · 4月18日

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

Arxiv

0+阅读 · 4月13日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

Large Language Models in the Abuse Detection Pipeline

Arxiv

0+阅读 · 3月31日

Integrating Personality into Digital Humans: A Review of LLM-Driven Approaches for Virtual Reality

Arxiv

0+阅读 · 3月15日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

27+阅读 · 2023年12月19日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

2+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

2+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

20+阅读 · 5月7日

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

9+阅读 · 5月3日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

25+阅读 · 3月18日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

大视觉语言模型在多模态虚假新闻检测中的应用综述

大视觉语言模型在多模态虚假新闻检测中的应用综述

专知会员服务

17+阅读 · 1月27日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

49+阅读 · 2024年7月9日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

开放知识图谱

15+阅读 · 2019年5月7日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

相关论文

MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning

Arxiv

0+阅读 · 4月29日

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

Arxiv

0+阅读 · 4月27日

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

Arxiv

0+阅读 · 4月18日

SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors

Arxiv

0+阅读 · 4月13日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

Large Language Models in the Abuse Detection Pipeline

Arxiv

0+阅读 · 3月31日

Integrating Personality into Digital Humans: A Review of LLM-Driven Approaches for Virtual Reality

Arxiv

0+阅读 · 3月15日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

27+阅读 · 2023年12月19日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

相关基金

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

多尺度时空特征约束的犯罪预测方法—以入室盗窃为例

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

大规模爆炸场数值模拟实时交互可视化软件

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员