We present MiroThinker v1.0, an open-source research agent designed to advance tool-augmented reasoning and information-seeking capabilities. Unlike previous agents that only scale up model size or context length, MiroThinker explores interaction scaling at the model level, systematically training the model to handle deeper and more frequent agent-environment interactions as a third dimension of performance improvement. Unlike LLM test-time scaling, which operates in isolation and risks degradation with longer reasoning chains, interactive scaling leverages environment feedback and external information acquisition to correct errors and refine trajectories. Through reinforcement learning, the model achieves efficient interaction scaling: with a 256K context window, it can perform up to 600 tool calls per task, enabling sustained multi-turn reasoning and complex real-world research workflows. Across four representative benchmarks-GAIA, HLE, BrowseComp, and BrowseComp-ZH-the 72B variant achieves up to 81.9%, 37.7%, 47.1%, and 55.6% accuracy respectively, surpassing previous open-source agents and approaching commercial counterparts such as GPT-5-high. Our analysis reveals that MiroThinker benefits from interactive scaling consistently: research performance improves predictably as the model engages in deeper and more frequent agent-environment interactions, demonstrating that interaction depth exhibits scaling behaviors analogous to model size and context length. These findings establish interaction scaling as a third critical dimension for building next-generation open research agents, complementing model capacity and context windows.


翻译:我们提出MiroThinker v1.0,这是一种旨在推进工具增强推理与信息获取能力的开源研究Agent。与先前仅扩展模型规模或上下文长度的Agent不同,MiroThinker在模型层面探索交互扩展,系统性地训练模型处理更深层、更频繁的Agent-环境交互,作为性能提升的第三维度。不同于LLM测试时扩展(其孤立运行且易随推理链增长而退化),交互扩展利用环境反馈与外部信息获取来纠正错误并优化轨迹。通过强化学习,该模型实现了高效的交互扩展:在256K上下文窗口下,每个任务可执行多达600次工具调用,从而支持持续的多轮推理与复杂的真实世界研究工作流程。在四个代表性基准测试——GAIA、HLE、BrowseComp和BrowseComp-ZH上,该72B变体分别达到81.9%、37.7%、47.1%和55.6%的准确率,超越了先前的开源Agent,并接近GPT-5-high等商业竞争对手。我们的分析表明,MiroThinker持续受益于交互扩展:随着模型参与更深层、更频繁的Agent-环境交互,研究性能可预测地提升,证明交互深度展现出与模型规模和上下文长度相似的扩展行为。这些发现确立了交互扩展作为构建下一代开放研究Agent的第三关键维度,与模型能力及上下文窗口形成互补。

0
下载
关闭预览

相关内容

⚡ MMClaw: 超轻量级、纯 Python 开发的 AI Agent 内核
专知会员服务
20+阅读 · 2月10日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
33+阅读 · 2025年3月27日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
相关主题
最新内容
《特种部队在透明战场中的生存力》最新报告
专知会员服务
0+阅读 · 30分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员