ForecastBench-Sim: A Simulated-World Forecasting Benchmark - 专知论文

会员服务 ·

0

得分 · MoDELS · Continuity · AI · 约束 ·

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

翻译：暂无翻译

Jaeho Lee,Nick Merrill,Ezra Karger

from arxiv, 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026

Forecasting benchmarks for general-purpose AI systems usually inherit the constraints of the real world: outcomes resolve slowly, tail events are rare, and counterfactual questions are difficult to score. We introduce ForecastBench-Sim, a simulated-world forecasting benchmark built on game rollouts from Freeciv, a turn-based strategy game modelled on the Civilization series. Forecasters receive a fixed world report (a structured snapshot of the current game state) and answer questions about hidden future states; the benchmark then continues the simulation and scores forecasts. Because the world is simulated, the same setup can generate continuous or binary forecasting questions at arbitrary time horizons, paired intervention worlds for conditional or causal questions, and resolved examples of rare or disruptive outcomes. We describe the benchmark pipeline, question families, scoring protocol, and release artifacts, and report validation slices from model evaluations and an anonymized human pilot. ForecastBench-Sim is intended to complement real-world forecasting benchmarks by providing controlled, immediately resolvable tasks for studying probabilistic reasoning under dynamic world states.

翻译：暂无翻译

0

相关内容

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

28+阅读 · 6月2日

《基于大语言模型的视觉侦察》最新19页slides

《基于大语言模型的视觉侦察》最新19页slides

专知会员服务

32+阅读 · 2025年11月19日

DeepSeek技术溯源及前沿探索

DeepSeek技术溯源及前沿探索

专知会员服务

34+阅读 · 2025年5月28日

大模型报告:模型能力决定下限，场景适配度决定上限

大模型报告:模型能力决定下限，场景适配度决定上限

专知会员服务

57+阅读 · 2024年6月3日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

专知会员服务

16+阅读 · 2022年3月29日

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

专知会员服务

10+阅读 · 2022年3月12日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【IJCAI 2019】耦合一切:建立最先进的推荐系统通用指南（Coupling Everything: A Universal Guideline for Building State-of-The-Art Recommender Systems），操龙兵教授，Liang Hu

【IJCAI 2019】耦合一切:建立最先进的推荐系统通用指南（Coupling Everything: A Universal Guideline for Building State-of-The-Art Recommender Systems），操龙兵教授，Liang Hu

专知会员服务

17+阅读 · 2019年8月11日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

CVer

10+阅读 · 2020年6月27日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

论智

14+阅读 · 2018年9月7日

【深度强化学习】深度强化学习揭秘

【深度强化学习】深度强化学习揭秘

产业智能官

21+阅读 · 2017年11月13日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂地震环境下多源遥感影像引力智能优化分类模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Critique of World Model

Arxiv

0+阅读 · 6月17日

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Arxiv

0+阅读 · 6月17日

MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Arxiv

0+阅读 · 6月17日

Looped World Models

Arxiv

0+阅读 · 6月16日

3D-Belief: Embodied Belief Inference via Generative 3D World Modeling

Arxiv

0+阅读 · 5月29日

Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

Arxiv

0+阅读 · 5月26日

PhyWorld: Physics-Faithful World Model for Video Generation

Arxiv

0+阅读 · 5月19日

Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

Arxiv

0+阅读 · 5月11日

A Benchmark for Interactive World Models with a Unified Action Generation Framework

Arxiv

0+阅读 · 5月5日

Forecasting: theory and practice

Arxiv

57+阅读 · 2022年1月5日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

28+阅读 · 6月2日

《基于大语言模型的视觉侦察》最新19页slides

《基于大语言模型的视觉侦察》最新19页slides

专知会员服务

32+阅读 · 2025年11月19日

DeepSeek技术溯源及前沿探索

DeepSeek技术溯源及前沿探索

专知会员服务

34+阅读 · 2025年5月28日

大模型报告:模型能力决定下限，场景适配度决定上限

大模型报告:模型能力决定下限，场景适配度决定上限

专知会员服务

57+阅读 · 2024年6月3日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

专知会员服务

16+阅读 · 2022年3月29日

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

【CVPR 2022】面向无噪声对象轮廓的弱监督语义分割，Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

专知会员服务

10+阅读 · 2022年3月12日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【IJCAI 2019】耦合一切:建立最先进的推荐系统通用指南（Coupling Everything: A Universal Guideline for Building State-of-The-Art Recommender Systems），操龙兵教授，Liang Hu

【IJCAI 2019】耦合一切:建立最先进的推荐系统通用指南（Coupling Everything: A Universal Guideline for Building State-of-The-Art Recommender Systems），操龙兵教授，Liang Hu

专知会员服务

17+阅读 · 2019年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

地平线提出AFDet：首个Anchor free、NMS free的3D目标检测算法

CVer

10+阅读 · 2020年6月27日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

论智

14+阅读 · 2018年9月7日

【深度强化学习】深度强化学习揭秘

【深度强化学习】深度强化学习揭秘

产业智能官

21+阅读 · 2017年11月13日

相关论文

Critique of World Model

Arxiv

0+阅读 · 6月17日

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Arxiv

0+阅读 · 6月17日

MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Arxiv

0+阅读 · 6月17日

Looped World Models

Arxiv

0+阅读 · 6月16日

3D-Belief: Embodied Belief Inference via Generative 3D World Modeling

Arxiv

0+阅读 · 5月29日

Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

Arxiv

0+阅读 · 5月26日

PhyWorld: Physics-Faithful World Model for Video Generation

Arxiv

0+阅读 · 5月19日

Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

Arxiv

0+阅读 · 5月11日

A Benchmark for Interactive World Models with a Unified Action Generation Framework

Arxiv

0+阅读 · 5月5日

Forecasting: theory and practice

Arxiv

57+阅读 · 2022年1月5日

相关基金

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂地震环境下多源遥感影像引力智能优化分类模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员