Reinforcement Learning for LLM-based Event Forecasting - 专知论文

会员服务 ·

0

事件 · 事件预测 · 大语言模型 · 强化学习 · 样本 ·

Reinforcement Learning for LLM-based Event Forecasting

翻译：基于强化学习的LLM事件预测

Amit Arnold Levy

from arxiv, Submitted internally at the University of Oxford in Oct 2025, migrated to arXiv on Jun 2026

We use Group Relative Policy Optimization (GRPO), a recently devised sample and memory efficient reinforcement learning method, to finetune pretrained LLMs in the range of 1.5B to 14B parameters equipped with the ability to get current information through the use of a Wikipedia revisions tool, or news summaries, to forecast real events beyond the knowledge cutoff of the LLM, as well as problems made to simulate different aspects of the dynamics of that training. We use the results of these experiments to comment on the scaling capability of LLMs for forecasting, as well as classify how judgmental forecasting fits into the verifiable/unverifiable domain taxonomy, considering the impact of the inherent aleatoric uncertainty when forecasting future events (e.g. the roll of a die). As a result of the GRPO training, we manage to bring a 1.5B parameter transformer (Qwen 2.5 1.5B) to forecasting performance superior to Claude Sonnet 3.5 over the same dataset as measured by cross entropy from the market agreed probabilities. We also discuss various dead ends on the path to this result.

翻译：我们采用最近提出的样本与内存高效的强化学习方法——组相对策略优化（GRPO），对参数规模在1.5B至14B之间的预训练LLM进行微调，使其具备通过维基百科修订工具或新闻摘要获取实时信息的能力，从而预测超出LLM知识截止日期的真实事件，并处理模拟训练动态不同方面的问题。基于实验结果，我们探讨了LLM在预测任务中的扩展能力，同时结合预测未来事件时固有的偶然不确定性（例如掷骰子），对判断性预测在可验证/不可验证领域分类中的定位进行了分析。通过GRPO训练，我们成功使1.5B参数的Transformer模型（Qwen 2.5 1.5B）在基于市场约定概率的交叉熵指标上，其预测性能超越了同一数据集上的Claude Sonnet 3.5。此外，我们还讨论了实现该结果过程中遭遇的各种技术瓶颈。

0

相关内容

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

10+阅读 · 5月8日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

39+阅读 · 2025年9月23日

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

专知会员服务

16+阅读 · 2025年5月14日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

专知会员服务

34+阅读 · 2024年1月21日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

【白皮书】从头训练大型语言模型LLM最佳实践

【白皮书】从头训练大型语言模型LLM最佳实践

专知会员服务

150+阅读 · 2023年8月24日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

150+阅读 · 2022年7月13日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Learning at the Right Pace: Adaptive Data Scheduling Improves LLM Reinforcement Learning

Arxiv

0+阅读 · 6月21日

Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling

Arxiv

0+阅读 · 6月12日

Rethinking the Trust Region in LLM Reinforcement Learning

Arxiv

0+阅读 · 6月12日

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Rethinking the Divergence Regularization in LLM RL

Arxiv

0+阅读 · 6月8日

Demystifying Data Organization for Enhanced LLM Training

Arxiv

0+阅读 · 5月28日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

One Tool Is Enough: Reinforcement Learning for Repository-Level LLM Agents

Arxiv

0+阅读 · 5月26日

Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping

Arxiv

0+阅读 · 5月11日

MathConstraint: Automated Generation of Verified Combinatorial Reasoning Instances for LLMs

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

10+阅读 · 5月8日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

39+阅读 · 2025年9月23日

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

专知会员服务

16+阅读 · 2025年5月14日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

专知会员服务

34+阅读 · 2024年1月21日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

【白皮书】从头训练大型语言模型LLM最佳实践

【白皮书】从头训练大型语言模型LLM最佳实践

专知会员服务

150+阅读 · 2023年8月24日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

150+阅读 · 2022年7月13日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Learning at the Right Pace: Adaptive Data Scheduling Improves LLM Reinforcement Learning

Arxiv

0+阅读 · 6月21日

Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling

Arxiv

0+阅读 · 6月12日

Rethinking the Trust Region in LLM Reinforcement Learning

Arxiv

0+阅读 · 6月12日

ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning

Arxiv

0+阅读 · 6月11日

Rethinking the Divergence Regularization in LLM RL

Arxiv

0+阅读 · 6月8日

Demystifying Data Organization for Enhanced LLM Training

Arxiv

0+阅读 · 5月28日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

One Tool Is Enough: Reinforcement Learning for Repository-Level LLM Agents

Arxiv

0+阅读 · 5月26日

Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping

Arxiv

0+阅读 · 5月11日

MathConstraint: Automated Generation of Verified Combinatorial Reasoning Instances for LLMs

Arxiv

0+阅读 · 5月8日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员