成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
沙盒
关注
0
综合
百科
VIP
热门
动态
论文
精华
Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation
Arxiv
0+阅读 · 2月11日
Among Us: A Sandbox for Measuring and Detecting Agentic Deception
Arxiv
0+阅读 · 2月10日
AgentCgroup: Understanding and Controlling OS Resources of AI Agents
Arxiv
0+阅读 · 2月10日
LLM-in-Sandbox Elicits General Agentic Intelligence
Arxiv
0+阅读 · 2月12日
TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning
Arxiv
0+阅读 · 2月2日
SandCell: Sandboxing Rust Beyond Unsafe Code
Arxiv
0+阅读 · 1月18日
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
Arxiv
0+阅读 · 1月29日
VirtualCrime: Evaluating Criminal Potential of Large Language Models via Sandbox Simulation
Arxiv
0+阅读 · 1月20日
Bias Dynamics in BabyLMs: Towards a Compute-Efficient Sandbox for Democratising Pre-Training Debiasing
Arxiv
0+阅读 · 1月15日
LLM-in-Sandbox Elicits General Agentic Intelligence
Arxiv
0+阅读 · 1月22日
The Bathtub of European AI Governance: Identifying Technical Sandboxes as the Micro-Foundation of Regulatory Learning
Arxiv
0+阅读 · 1月7日
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research
Arxiv
0+阅读 · 2025年12月15日
SecureSign: Bridging Security and UX in Mobile Web3 through Emulated EIP-6963 Sandboxing
Arxiv
0+阅读 · 2025年11月18日
Trading green bonds using distributed ledger technology
Arxiv
0+阅读 · 2023年4月17日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top