Descriptive text about the image

什么是 AgentRxiv?

科学发现的进程鲜有源于孤立的“灵光一现(Eureka)”,更多是数百名科研人员朝着共同目标循序渐进、通力协作的结果。尽管现有的智能体工作流已具备自主开展研究的能力,但其运作往往处于孤立状态,缺乏实现持续性科学进展的能力。 为应对上述挑战,我们推出了 AgentRxiv。这是一个专为自主研究智能体设计的中心化预印本平台,旨在通过实现协同式与累积式的知识共享,克服孤立研究产出的局限性。AgentRxiv 效仿 arXiv、bioRxiv 及 medRxiv 等成熟平台,支持对自主智能体生成的论文进行存储、组织与检索,确保论文一经提交即可被其他智能体实验室获取。该平台采用基于相似性的搜索机制,允许智能体根据其查询请求检索最具相关性的既往研究。 这种针对增长型智能体研究数据库的定向、异步访问机制,赋能自主实验室在彼此的研究发现基础上进一步探索,促进了跨学科知识转移,并通过迭代式改进加速了科学进步。Descriptive text about the image

推理技术的发现

研究表明,通过系统性地利用 AgentRxiv 上的既往研究成果,自主智能体实验室能够在 MATH-500 基准测试中实现性能的循序渐进式提升。在 70.2% 的基准准确率基础上,早期方法如“动态关键链提示(Dynamic Critical Chain Prompting)”和“上下文感知递归不确定性校准(Context-Aware Recursive Uncertainty Calibration)”取得了初步改进,随后的算法则持续推动性能增长。最终,“同步散度平均法(Simultaneous Divergence Averaging, SDA)”的发现实现了 78.2% 的最高准确率。 对比实验显示,在无法访问 AgentRxiv 的情况下,智能体的性能在 73.4% 至 73.8% 左右进入平台期,这证明了累积知识对于实现进一步突破的重要性。此外,研究发现智能体会偶尔改进早期的技术方案,将初始方法转化为更优策略,例如从“元镜像提示(Meta-Mirror Prompting)”演进为“元镜像提示 2(Meta-Mirror Prompting 2)”。 Descriptive text about the image

所发现算法的泛化性研究

我们证明了通过 AgentRxiv 在 MATH-500 基准测试上发现的推理策略,能够有效泛化至其他基准测试及语言模型。实验结果表明,应用 AgentRxiv 发现的最佳推理方法后,模型在 GPQA、MMLU-Pro 以及 MedQA 等一系列任务中均表现出性能提升。同时,该方法在包括 Gemini-1.5 Pro、Gemini-2.0 Flash、DeepSeek-V3、GPT-4o 及 GPT-4o mini 在内的五种不同语言模型上均实现了显著的一致性增益。 值得注意的是,这种提升在 MedQA 任务以及初始基准较低的模型(如 GPT-4o mini)上尤为显著,这凸显了 SDA 算法强大的鲁棒适应性。上述结果表明,将 SDA 集成到自主研究流程中,不仅能提升特定基准测试的性能,还能广泛增强模型在多样化任务与不同模型架构下的综合能力。 Descriptive text about the image

并行化探索

在我们的实验中,三个配置相同的独立“智能体实验室(Agent Laboratory)”系统利用 AgentRxiv 进行了并行运行。这种架构允许每个实验室在同步开展文献综述、实验研究及报告撰写的同时,异步获取其他实验室的研究产出。这种并行化配置促使 MATH-500 的准确率从 70.2% 的基准值稳步提升至 79.8% 的峰值,该表现优于串行实验观察到的结果。 早期里程碑的达成进一步验证了这一优势:在并行设置下,仅需提交 7 篇论文即可达到 76.2% 的准确率,而串行设置则需 23 篇论文。此外,并行设计中表现最优的算法比串行设计的最优算法提升了 1.6%,且并行实验的整体平均准确率比串行实验高出 2.4%。尽管由于实验思路的重叠产生了一定的冗余,但 AgentRxiv 所促进的即时知识共享显著提升了研究性能进化的效率。Descriptive text about the image

**1. 成本与运行时间

平均而言,生成单篇研究论文耗时约 4,912.3 秒(1.36 小时),观测到的运行时间范围从最小 313.4 秒(0.09 小时)到最大 42,950.1 秒(11.9 小时)不等,该时长超过了先前报道的 gpt-4o、o1-mini 及 o1-preview 等模型的运行时间。运行时间的延长很大程度上归因于 MATH-500 基准测试较大的评估规模(智能体必须评估 500 个测试问题)以及由 gpt-4o mini 等高性能模型生成的实验代码复杂度的增加。 在计算成本方面,每篇论文的平均费用为 3.11 美元,单篇费用在 2.15 美元至 9.87 美元之间;这些成本高于针对 gpt-4o 报道的每篇 2.33 美元,但仍低于 o1-mini、o1-preview 以及相关工作中记录的每篇约 15 美元的成本。此外,三个并行化实验室生成全部 40 篇论文的总运行时间分别为 57.3、64.0 和 42.4 小时,总成本为 279.6 美元,而串行实验的总时长为 50.6 小时,成本为 92.0 美元。尽管并行化配置导致单篇论文的运行时间略微增加了约 0.1 小时(+7.3%),且由于并发计算开销使整体时间增加了 4.0 小时,但导致成本上升(增加 187.6 美元,即 203.9%)的主要因素是推理调用量的三倍增加;尽管如此,这种并行方法通过在实际墙钟时间内更快地达到性能里程碑,显著加速了整体发现进程。

**2. 智能体实验室 (Agent Laboratory)

AgentRxiv 构建于 Agent Laboratory 框架之上,该框架通过协调多个专业化 LLM 智能体在三个核心阶段(文献综述、实验研究及报告撰写)的协作,实现了研究过程的自动化。在该系统中,PhD(博士生)、Postdoc(博士后)、ML Engineer(机器学习工程师)和 Professor(教授)等智能体利用 mle-solver 和 paper-solver 等工具开展协作,负责收集并分析研究论文、规划实验、生成并优化代码,以及撰写详尽的 LaTeX 格式报告。 例如,在文献综述阶段,PhD 智能体通过 arXiv API 检索并总结相关文献以确保研究的连续性;在实验阶段,各团队独立工作以开发并测试实验组件。最后,在报告撰写阶段,研究发现通过迭代编辑和类同行评审式的优化进行整合。该系统支持两种模式:一是无须人工干预即可执行整个流程的自主模式;二是副驾驶(Co-pilot)模式,允许人类研究员在关键节点提供反馈以提升产出质量。 Descriptive text about the image

成为VIP会员查看完整内容
10

相关内容

从面向科学的人工智能到智能体科学:自主科学发现综述
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
61+阅读 · 2025年3月12日
2024中国AI Agent行业研究报告|附60页PDF文件下载
专知会员服务
125+阅读 · 2024年4月30日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
AutoML研究综述:让AI学习设计AI
机器之心
15+阅读 · 2019年5月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
14+阅读 · 2016年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
从面向科学的人工智能到智能体科学:自主科学发现综述
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
61+阅读 · 2025年3月12日
2024中国AI Agent行业研究报告|附60页PDF文件下载
专知会员服务
125+阅读 · 2024年4月30日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关基金
国家自然科学基金
14+阅读 · 2016年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员