High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.


翻译:高风险决策涉及在不确定性条件下对未来进行推理。本研究通过训练语言模型对开放式预测问题作出预测。为扩大训练数据规模,我们基于每日新闻报道的全球事件,采用全自动、精细化的数据构建方法,合成了新型预测问题。我们在自建数据集OpenForesight上训练了Qwen3思维模型。为防止训练与评估过程中的未来信息泄露,我们使用离线新闻语料库,同时服务于数据生成和预测系统中的检索模块。通过小规模验证集的指导,我们证明了检索机制的优势以及改进后的强化学习奖励函数的有效性。在获得最终预测系统后,我们在2025年5月至8月期间进行了留出测试。我们的专用模型OpenForecaster 8B达到了与规模更大的专有模型相当的性能,其训练过程显著提升了预测的准确性、校准度和一致性。研究发现,预测训练带来的校准改进可泛化至多个主流基准测试。我们开源了所有模型、代码与数据,以推动语言模型预测研究的广泛发展。

0
下载
关闭预览

相关内容

开放域是只有部分边界被定义或者其边界超出数据空间的几何区域,开放区域一般针对几何图形的边界不重要或者是无限的情况,例如,开放的直线、开放的平面和开放的空间,把这些开放形状描述为抽象的类。
【干货书】预测原理与实战,Forecasting: Principles & Practice
专知会员服务
96+阅读 · 2022年4月11日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
论文浅尝 | 基于事理图谱的脚本事件预测
开放知识图谱
10+阅读 · 2019年12月10日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2025年12月30日
VIP会员
相关VIP内容
【干货书】预测原理与实战,Forecasting: Principles & Practice
专知会员服务
96+阅读 · 2022年4月11日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员