机器学习智能体能否在执行前进行预测？ (Can We Predict Before Executing Machine Learning Agents?) - 专知论文

会员服务 ·

0

智能体 · 机器学习 · 先验知识 · 知识 · 运行时验证 ·

Can We Predict Before Executing Machine Learning Agents?

翻译：机器学习智能体能否在执行前进行预测？

Jingsheng Zheng,Jintian Zhang,Yujie Luo,Yuren Mao,Yunjun Gao,Lun Du,Huajun Chen,Ningyu Zhang

from arxiv, Work in progress

Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.

翻译：自主机器学习智能体已彻底改变了科学发现的过程，但其仍受限于生成-执行-反馈范式。先前方法存在严重的执行瓶颈问题，因为假设评估严格依赖于昂贵的物理执行过程。为突破这些物理限制，我们借鉴世界模型的思路，通过内化执行先验知识，用即时预测推理替代高成本的运行时验证。本研究形式化定义了以数据为中心的解决方案偏好任务，并构建了包含18,438组配对比较的完整语料库。实验表明，大语言模型在获得经过验证的数据分析报告提示后，展现出显著的预测能力，准确率达到61.5%且置信度校准稳健。最终，我们在FOREAGENT智能体中实例化了该框架，采用预测-验证循环机制，在收敛速度提升6倍的同时，以+6%的优势超越基于执行的基线方法。我们的代码与数据集即将发布于https://github.com/zjunlp/predict-before-execute。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

21+阅读 · 2025年6月19日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

29+阅读 · 2025年4月24日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

物理知识辅助的机器学习预测：综述

物理知识辅助的机器学习预测：综述

专知会员服务

30+阅读 · 2024年8月25日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

专知会员服务

71+阅读 · 2023年6月8日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

如何将先验知识嵌入机器学习？首篇《知信机器学习Informed ML》综述论文全面概述IML概念、分类、方法等，19页pdf

如何将先验知识嵌入机器学习？首篇《知信机器学习Informed ML》综述论文全面概述IML概念、分类、方法等，19页pdf

专知会员服务

108+阅读 · 2021年6月27日

机器学习的可解释性

机器学习的可解释性

专知会员服务

179+阅读 · 2020年8月27日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

Forge：如何管理你的机器学习实验

Forge：如何管理你的机器学习实验

专知

11+阅读 · 2018年12月1日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【机器学习】如何通过机器学习预测维护设备？

【机器学习】如何通过机器学习预测维护设备？

产业智能官

16+阅读 · 2018年7月9日

有没有必要把机器学习算法自己实现一遍？

有没有必要把机器学习算法自己实现一遍？

AI研习社

12+阅读 · 2017年11月27日

机器学习必备手册

机器学习必备手册

机器学习研究会

19+阅读 · 2017年10月24日

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

产业智能官

11+阅读 · 2017年10月14日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention

Arxiv

0+阅读 · 2月3日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

Position: Agent Should Invoke External Tools ONLY When Epistemically Necessary

Arxiv

0+阅读 · 1月29日

Learning to Ideate for Machine Learning Engineering Agents

Arxiv

0+阅读 · 1月24日

Agentic Confidence Calibration

Arxiv

0+阅读 · 1月22日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

Agentic-R: Learning to Retrieve for Agentic Search

Arxiv

0+阅读 · 1月17日

Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

Agentic Exploration of Physics Models

Arxiv

0+阅读 · 1月7日

Current Agents Fail to Leverage World Model as Tool for Foresight

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

运行时验证

相关VIP内容

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

21+阅读 · 2025年6月19日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

29+阅读 · 2025年4月24日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

物理知识辅助的机器学习预测：综述

物理知识辅助的机器学习预测：综述

专知会员服务

30+阅读 · 2024年8月25日

《结合机器人行为以实现安全、智能的执行》

《结合机器人行为以实现安全、智能的执行》

专知会员服务

16+阅读 · 2023年7月4日

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

专知会员服务

71+阅读 · 2023年6月8日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

如何将先验知识嵌入机器学习？首篇《知信机器学习Informed ML》综述论文全面概述IML概念、分类、方法等，19页pdf

如何将先验知识嵌入机器学习？首篇《知信机器学习Informed ML》综述论文全面概述IML概念、分类、方法等，19页pdf

专知会员服务

108+阅读 · 2021年6月27日

机器学习的可解释性

机器学习的可解释性

专知会员服务

179+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

Forge：如何管理你的机器学习实验

Forge：如何管理你的机器学习实验

专知

11+阅读 · 2018年12月1日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【机器学习】如何通过机器学习预测维护设备？

【机器学习】如何通过机器学习预测维护设备？

产业智能官

16+阅读 · 2018年7月9日

有没有必要把机器学习算法自己实现一遍？

有没有必要把机器学习算法自己实现一遍？

AI研习社

12+阅读 · 2017年11月27日

机器学习必备手册

机器学习必备手册

机器学习研究会

19+阅读 · 2017年10月24日

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

产业智能官

11+阅读 · 2017年10月14日

相关论文

To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention

Arxiv

0+阅读 · 2月3日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

Position: Agent Should Invoke External Tools ONLY When Epistemically Necessary

Arxiv

0+阅读 · 1月29日

Learning to Ideate for Machine Learning Engineering Agents

Arxiv

0+阅读 · 1月24日

Agentic Confidence Calibration

Arxiv

0+阅读 · 1月22日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

Agentic-R: Learning to Retrieve for Agentic Search

Arxiv

0+阅读 · 1月17日

Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

Agentic Exploration of Physics Models

Arxiv

0+阅读 · 1月7日

Current Agents Fail to Leverage World Model as Tool for Foresight

Arxiv

0+阅读 · 1月7日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员