Recent work on recursive reasoning models like TRM demonstrates that tiny networks (7M parameters) can achieve strong performance on abstract reasoning tasks through latent recursion -- iterative refinement in hidden representation space without emitting intermediate tokens. This raises a natural question about operator choice: Mamba-2's state space recurrence is itself a form of iterative refinement, making it a natural candidate for recursive reasoning -- but does introducing Mamba-2 into the recursive scaffold preserve reasoning capability? We investigate this by replacing the Transformer blocks in TRM with Mamba-2 hybrid operators while maintaining parameter parity (6.83M vs 6.86M parameters). On ARC-AGI-1, we find that the hybrid improves pass@2 (the official metric) by +2.0\% (45.88\% vs 43.88\%) and consistently outperforms at higher K values (+4.75\% at pass@100), whilst maintaining pass@1 parity. This suggests improved candidate coverage -- the model generates correct solutions more reliably -- with similar top-1 selection. Our results validate that Mamba-2 hybrid operators preserve reasoning capability within the recursive scaffold, establishing SSM-based operators as viable candidates in the recursive operator design space and taking a first step towards understanding the best mixing strategies for recursive reasoning.


翻译:近期关于递归推理模型(如TRM)的研究表明,微型网络(7M参数)通过潜在递归——即在隐藏表示空间中进行迭代优化而无需生成中间标记——能够在抽象推理任务上实现强劲性能。这自然引出了一个关于算子选择的问题:Mamba-2的状态空间递归本身即是一种迭代优化形式,使其成为递归推理的天然候选方案。然而,将Mamba-2引入递归框架是否会保持推理能力?我们通过将TRM中的Transformer模块替换为Mamba-2混合算子(同时保持参数量基本相当:6.83M vs 6.86M参数)对此展开研究。在ARC-AGI-1数据集上,混合模型将官方评价指标pass@2提升了+2.0%(45.88% vs 43.88%),且在更高K值下持续优于原模型(pass@100提升+4.75%),同时保持pass@1指标持平。这表明模型在保持最优解选择能力相近的情况下,提升了候选解的覆盖质量——即能更可靠地生成正确解。我们的结果验证了Mamba-2混合算子在递归框架内能够保持推理能力,确立了基于状态空间模型(SSM)的算子作为递归算子设计空间中的可行候选方案,并为理解递归推理的最佳混合策略迈出了第一步。

0
下载
关闭预览

相关内容

小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
《混合专家模型推理优化技术综述》
专知会员服务
46+阅读 · 2024年12月21日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月11日
VIP会员
最新内容
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
1+阅读 · 56分钟前
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
2+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
4+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
11+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
8+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
3+阅读 · 4月24日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员