LLM-in-Sandbox Elicits General Agentic Intelligence - 专知论文

会员服务 ·

0

代码 · 通用智能 · 沙盒 · 大语言模型 · 泛化 ·

LLM-in-Sandbox Elicits General Agentic Intelligence

翻译：LLM-in-Sandbox 激发通用智能体智能

Daixuan Cheng,Shaohan Huang,Yuxian Gu,Huatong Song,Guoxin Chen,Li Dong,Wayne Xin Zhao,Ji-Rong Wen,Furu Wei

from arxiv, Project Page: https://llm-in-sandbox.github.io

We introduce LLM-in-Sandbox, enabling LLMs to explore within a code sandbox (i.e., a virtual computer), to elicit general intelligence in non-code domains. We first demonstrate that strong LLMs, without additional training, exhibit generalization capabilities to leverage the code sandbox for non-code tasks. For example, LLMs spontaneously access external resources to acquire new knowledge, leverage the file system to handle long contexts, and execute scripts to satisfy formatting requirements. We further show that these agentic capabilities can be enhanced through LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), which uses only non-agentic data to train models for sandbox exploration. Experiments demonstrate that LLM-in-Sandbox, in both training-free and post-trained settings, achieves robust generalization spanning mathematics, physics, chemistry, biomedicine, long-context understanding, and instruction following. Finally, we analyze LLM-in-Sandbox's efficiency from computational and system perspectives, and open-source it as a Python package to facilitate real-world deployment.

翻译：我们提出了 LLM-in-Sandbox，使大型语言模型能够在代码沙盒（即虚拟计算机）内进行探索，以激发其在非代码领域的通用智能。我们首先证明，强大的大型语言模型无需额外训练，即展现出利用代码沙盒处理非代码任务的泛化能力。例如，大型语言模型能自发访问外部资源以获取新知识，利用文件系统处理长上下文，并执行脚本来满足格式要求。我们进一步表明，这些智能体能力可以通过 LLM-in-Sandbox 强化学习（LLM-in-Sandbox-RL）得到增强，该方法仅使用非智能体数据来训练模型进行沙盒探索。实验表明，LLM-in-Sandbox 在免训练和训练后两种设置下，均实现了跨越数学、物理、化学、生物医学、长上下文理解及指令遵循的鲁棒泛化。最后，我们从计算和系统角度分析了 LLM-in-Sandbox 的效率，并将其开源为 Python 软件包以促进实际部署。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

28+阅读 · 4月6日

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

专知会员服务

19+阅读 · 1月2日

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

专知会员服务

25+阅读 · 2025年12月18日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

【AMD&霍普金斯】智能体实验室：将大语言模型（LLM）智能体作为研究助理

【AMD&霍普金斯】智能体实验室：将大语言模型（LLM）智能体作为研究助理

专知会员服务

30+阅读 · 2025年1月13日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大SCIR

13+阅读 · 2019年8月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

用Rasa NLU构建自己的中文NLU系统

用Rasa NLU构建自己的中文NLU系统

待字闺中

18+阅读 · 2017年9月18日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN使能的无线Mesh网络拓扑重构与智能管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation

Arxiv

0+阅读 · 3月16日

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Arxiv

0+阅读 · 3月5日

How Well Can LLM Agents Simulate End-User Security and Privacy Attitudes and Behaviors?

Arxiv

0+阅读 · 2月24日

SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation

Arxiv

0+阅读 · 2月16日

Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents

Arxiv

0+阅读 · 2月13日

Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Arxiv

0+阅读 · 2月8日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

LLM Agents for Education: Advances and Applications

Arxiv

0+阅读 · 2月4日

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Arxiv

0+阅读 · 2月3日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

5+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

3+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

2+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

2+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

8+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

6+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

4+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

7+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

4+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

6+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

4+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

5+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

5+阅读 · 今天6:09

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

28+阅读 · 4月6日

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

专知会员服务

19+阅读 · 1月2日

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

专知会员服务

25+阅读 · 2025年12月18日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

【AMD&霍普金斯】智能体实验室：将大语言模型（LLM）智能体作为研究助理

【AMD&霍普金斯】智能体实验室：将大语言模型（LLM）智能体作为研究助理

专知会员服务

30+阅读 · 2025年1月13日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大SCIR

13+阅读 · 2019年8月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

用Rasa NLU构建自己的中文NLU系统

用Rasa NLU构建自己的中文NLU系统

待字闺中

18+阅读 · 2017年9月18日

相关论文

Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation

Arxiv

0+阅读 · 3月16日

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Arxiv

0+阅读 · 3月5日

How Well Can LLM Agents Simulate End-User Security and Privacy Attitudes and Behaviors?

Arxiv

0+阅读 · 2月24日

SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation

Arxiv

0+阅读 · 2月16日

Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents

Arxiv

0+阅读 · 2月13日

Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Arxiv

0+阅读 · 2月8日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

LLM Agents for Education: Advances and Applications

Arxiv

0+阅读 · 2月4日

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Arxiv

0+阅读 · 2月3日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN使能的无线Mesh网络拓扑重构与智能管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员