AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.


翻译:人工智能智能体正日益被部署在动态、开放式的环境中,这要求它们能够在接收到新信息时进行适应。为了高效衡量这种能力在现实场景中的表现,我们提出构建一种基于现实世界事件按发生顺序重演的基础模拟系统。我们构建了名为“未来模拟”的系统,在该系统中,智能体在与世界的时间顺序重演(即模拟期间实时到来的真实新闻文章与不断解答的问题)交互的同时,预测其知识截止日期之后的全球事件。我们以原生框架评估前沿智能体,测试它们预测2026年1月至3月这三个月内全球事件的能力。未来模拟揭示了智能体能力的明显分化:最佳智能体的准确率为25%,而许多智能体的布里尔技能得分甚至低于不作任何预测的水平。通过仔细的消融实验,我们展示未来模拟如何为长期测试时的适应、搜索、记忆及不确定性推理等新兴研究方向提供真实场景。总体而言,我们希望这一基准设计能够为衡量人工智能在现实世界中跨越长时间跨度的开放式适应能力铺平道路。

0
下载
关闭预览

相关内容

智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
智能体适应
专知会员服务
27+阅读 · 2025年12月11日
自主智能:多模态人工智能代理重塑技术未来
专知会员服务
26+阅读 · 2025年11月23日
具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
53+阅读 · 2024年6月7日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
人工智能的现状与未来(附PPT)
人工智能学家
76+阅读 · 2019年3月27日
综述AI未来:神经科学启发的类脑计算
人工智能学家
11+阅读 · 2018年4月24日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
智能体适应
专知会员服务
27+阅读 · 2025年12月11日
自主智能:多模态人工智能代理重塑技术未来
专知会员服务
26+阅读 · 2025年11月23日
具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
53+阅读 · 2024年6月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员