Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis - 专知论文

会员服务 ·

0

合成 · 数据集 · 标注 · 语言模型 · 大型语言模型推理 ·

Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis

翻译：智能提案：通过组合技能合成增强大型语言模型推理能力

Zhengbo Jiao,Shaobo Wang,Zifan Zhang,Xuan Ren,Wei Wang,Bing Zhao,Hu Wei,Linfeng Zhang

from arxiv, 23page4

Advancing complex reasoning in large language models relies on high-quality, verifiable datasets, yet human annotation remains cost-prohibitive and difficult to scale. Current synthesis paradigms often face a recurring trade-off: maintaining structural validity typically restricts problem complexity, while relaxing constraints to increase difficulty frequently leads to inconsistent or unsolvable instances. To address this, we propose Agentic Proposing, a framework that models problem synthesis as a goal-driven sequential decision process where a specialized agent dynamically selects and composes modular reasoning skills. Through an iterative workflow of internal reflection and tool-use, we develop the Agentic-Proposer-4B using Multi-Granularity Policy Optimization (MGPO) to generate high-precision, verifiable training trajectories across mathematics, coding, and science. Empirical results demonstrate that downstream solvers trained on agent-synthesized data significantly outperform leading baselines and exhibit robust cross-domain generalization. Notably, a 30B solver trained on only 11,000 synthesized trajectories achieves a state-of-the-art 91.6% accuracy on AIME25, rivaling frontier-scale proprietary models such as GPT-5 and proving that a small volume of high-quality synthetic signals can effectively substitute for massive human-curated datasets.

翻译：提升大型语言模型的复杂推理能力依赖于高质量、可验证的数据集，然而人工标注仍然成本高昂且难以扩展。当前的合成范式常面临一个反复出现的权衡：保持结构有效性通常会限制问题复杂度，而放宽约束以增加难度则常导致不一致或不可解的实例。为解决这一问题，我们提出智能提案框架，将问题合成建模为目标驱动的序列决策过程，其中专用智能体动态选择并组合模块化推理技能。通过内部反思与工具使用的迭代工作流，我们利用多粒度策略优化（MGPO）开发出Agentic-Proposer-4B模型，用于生成涵盖数学、编程和科学领域的高精度、可验证训练轨迹。实证结果表明，基于智能体合成数据训练的下游求解器显著优于主流基线模型，并展现出强大的跨领域泛化能力。值得注意的是，仅使用11,000条合成轨迹训练的30B求解器在AIME25数据集上达到了91.6%的最先进准确率，媲美GPT-5等前沿规模的专有模型，这证明少量高质量的合成信号能够有效替代海量人工标注数据集。

0

相关内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

24+阅读 · 2025年6月11日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

33+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

增强大模型智能：数学推理能力的提升策略与实践

增强大模型智能：数学推理能力的提升策略与实践

专知会员服务

25+阅读 · 2024年8月25日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Arxiv

0+阅读 · 3月1日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

1+阅读 · 2月27日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月16日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月12日

Logical Structure as Knowledge: Enhancing LLM Reasoning via Structured Logical Knowledge Density Estimation

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

大型语言模型推理

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

4+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

24+阅读 · 2025年6月11日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

高效大语言模型推理服务综述

高效大语言模型推理服务综述

专知会员服务

18+阅读 · 2025年4月30日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

33+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

增强大模型智能：数学推理能力的提升策略与实践

增强大模型智能：数学推理能力的提升策略与实践

专知会员服务

25+阅读 · 2024年8月25日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

相关论文

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Arxiv

0+阅读 · 3月1日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

1+阅读 · 2月27日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月16日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月12日

Logical Structure as Knowledge: Enhancing LLM Reasoning via Structured Logical Knowledge Density Estimation

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员