AgentRxiv：迈向协作式自主科学研究

Descriptive text about the image

什么是 AgentRxiv？

科学发现的进程鲜有源于孤立的“灵光一现（Eureka）”，更多是数百名科研人员朝着共同目标循序渐进、通力协作的结果。尽管现有的智能体工作流已具备自主开展研究的能力，但其运作往往处于孤立状态，缺乏实现持续性科学进展的能力。为应对上述挑战，我们推出了 AgentRxiv。这是一个专为自主研究智能体设计的中心化预印本平台，旨在通过实现协同式与累积式的知识共享，克服孤立研究产出的局限性。AgentRxiv 效仿 arXiv、bioRxiv 及 medRxiv 等成熟平台，支持对自主智能体生成的论文进行存储、组织与检索，确保论文一经提交即可被其他智能体实验室获取。该平台采用基于相似性的搜索机制，允许智能体根据其查询请求检索最具相关性的既往研究。这种针对增长型智能体研究数据库的定向、异步访问机制，赋能自主实验室在彼此的研究发现基础上进一步探索，促进了跨学科知识转移，并通过迭代式改进加速了科学进步。 Descriptive text about the image

推理技术的发现

研究表明，通过系统性地利用 AgentRxiv 上的既往研究成果，自主智能体实验室能够在 MATH-500 基准测试中实现性能的循序渐进式提升。在 70.2% 的基准准确率基础上，早期方法如“动态关键链提示（Dynamic Critical Chain Prompting）”和“上下文感知递归不确定性校准（Context-Aware Recursive Uncertainty Calibration）”取得了初步改进，随后的算法则持续推动性能增长。最终，“同步散度平均法（Simultaneous Divergence Averaging, SDA）”的发现实现了 78.2% 的最高准确率。对比实验显示，在无法访问 AgentRxiv 的情况下，智能体的性能在 73.4% 至 73.8% 左右进入平台期，这证明了累积知识对于实现进一步突破的重要性。此外，研究发现智能体会偶尔改进早期的技术方案，将初始方法转化为更优策略，例如从“元镜像提示（Meta-Mirror Prompting）”演进为“元镜像提示 2（Meta-Mirror Prompting 2）”。 Descriptive text about the image

所发现算法的泛化性研究

我们证明了通过 AgentRxiv 在 MATH-500 基准测试上发现的推理策略，能够有效泛化至其他基准测试及语言模型。实验结果表明，应用 AgentRxiv 发现的最佳推理方法后，模型在 GPQA、MMLU-Pro 以及 MedQA 等一系列任务中均表现出性能提升。同时，该方法在包括 Gemini-1.5 Pro、Gemini-2.0 Flash、DeepSeek-V3、GPT-4o 及 GPT-4o mini 在内的五种不同语言模型上均实现了显著的一致性增益。值得注意的是，这种提升在 MedQA 任务以及初始基准较低的模型（如 GPT-4o mini）上尤为显著，这凸显了 SDA 算法强大的鲁棒适应性。上述结果表明，将 SDA 集成到自主研究流程中，不仅能提升特定基准测试的性能，还能广泛增强模型在多样化任务与不同模型架构下的综合能力。 Descriptive text about the image

并行化探索

在我们的实验中，三个配置相同的独立“智能体实验室（Agent Laboratory）”系统利用 AgentRxiv 进行了并行运行。这种架构允许每个实验室在同步开展文献综述、实验研究及报告撰写的同时，异步获取其他实验室的研究产出。这种并行化配置促使 MATH-500 的准确率从 70.2% 的基准值稳步提升至 79.8% 的峰值，该表现优于串行实验观察到的结果。早期里程碑的达成进一步验证了这一优势：在并行设置下，仅需提交 7 篇论文即可达到 76.2% 的准确率，而串行设置则需 23 篇论文。此外，并行设计中表现最优的算法比串行设计的最优算法提升了 1.6%，且并行实验的整体平均准确率比串行实验高出 2.4%。尽管由于实验思路的重叠产生了一定的冗余，但 AgentRxiv 所促进的即时知识共享显著提升了研究性能进化的效率。 Descriptive text about the image

**1. 成本与运行时间

平均而言，生成单篇研究论文耗时约 4,912.3 秒（1.36 小时），观测到的运行时间范围从最小 313.4 秒（0.09 小时）到最大 42,950.1 秒（11.9 小时）不等，该时长超过了先前报道的 gpt-4o、o1-mini 及 o1-preview 等模型的运行时间。运行时间的延长很大程度上归因于 MATH-500 基准测试较大的评估规模（智能体必须评估 500 个测试问题）以及由 gpt-4o mini 等高性能模型生成的实验代码复杂度的增加。在计算成本方面，每篇论文的平均费用为 3.11 美元，单篇费用在 2.15 美元至 9.87 美元之间；这些成本高于针对 gpt-4o 报道的每篇 2.33 美元，但仍低于 o1-mini、o1-preview 以及相关工作中记录的每篇约 15 美元的成本。此外，三个并行化实验室生成全部 40 篇论文的总运行时间分别为 57.3、64.0 和 42.4 小时，总成本为 279.6 美元，而串行实验的总时长为 50.6 小时，成本为 92.0 美元。尽管并行化配置导致单篇论文的运行时间略微增加了约 0.1 小时（+7.3%），且由于并发计算开销使整体时间增加了 4.0 小时，但导致成本上升（增加 187.6 美元，即 203.9%）的主要因素是推理调用量的三倍增加；尽管如此，这种并行方法通过在实际墙钟时间内更快地达到性能里程碑，显著加速了整体发现进程。

**2. 智能体实验室 (Agent Laboratory)

AgentRxiv 构建于 Agent Laboratory 框架之上，该框架通过协调多个专业化 LLM 智能体在三个核心阶段（文献综述、实验研究及报告撰写）的协作，实现了研究过程的自动化。在该系统中，PhD（博士生）、Postdoc（博士后）、ML Engineer（机器学习工程师）和 Professor（教授）等智能体利用 mle-solver 和 paper-solver 等工具开展协作，负责收集并分析研究论文、规划实验、生成并优化代码，以及撰写详尽的 LaTeX 格式报告。例如，在文献综述阶段，PhD 智能体通过 arXiv API 检索并总结相关文献以确保研究的连续性；在实验阶段，各团队独立工作以开发并测试实验组件。最后，在报告撰写阶段，研究发现通过迭代编辑和类同行评审式的优化进行整合。该系统支持两种模式：一是无须人工干预即可执行整个流程的自主模式；二是副驾驶（Co-pilot）模式，允许人类研究员在关键节点提供反馈以提升产出质量。 Descriptive text about the image