Chain-of-Thought (CoT) prompting is widely adopted for mathematical problem solving, including in low-resource languages, yet its behavior under irrelevant context remains underexplored. To systematically study this challenge, we introduce DISTRACTMATH-BN, a Bangla benchmark that augments MGSM and MSVAMP with semantically coherent but computationally irrelevant information. Evaluating seven models ranging from 3B to 12B parameters, we observe substantial performance degradation under distractors: standard models drop by up to 41 points, while reasoning-specialized models decline by 14 to 20 points despite consuming five times more tokens. We propose †DAGGER, which reformulates mathematical problem solving as executable computational graph generation with explicit modeling of distractor nodes. Fine-tuning Gemma-3 models using supervised fine-tuning followed by Group Relative Policy Optimization achieves comparable weighted accuracy on augmented benchmarks while using 89 percent fewer tokens than reasoning models. Importantly, this robustness emerges without explicit training on distractor-augmented examples. Our results suggest that enforcing structured intermediate representations improves robustness and inference efficiency in mathematical reasoning compared to free-form approaches, particularly in noisy, low-resource settings.


翻译:思维链(CoT)提示被广泛用于数学问题求解,包括在低资源语言中,但其在无关上下文下的行为仍未得到充分探索。为系统性地研究这一挑战,我们引入了DISTRACTMATH-BN,这是一个孟加拉语基准测试,它在MGSM和MSVAMP的基础上增加了语义连贯但计算无关的信息。通过对参数量从3B到12B的七个模型进行评估,我们观察到在干扰项存在下性能显著下降:标准模型下降高达41分,而专门用于推理的模型尽管消耗了五倍以上的令牌数,仍下降了14至20分。我们提出了†DAGGER,它将数学问题求解重新表述为可执行计算图的生成,并显式地对干扰项节点进行建模。使用监督微调后接组相对策略优化对Gemma-3模型进行微调,在增强基准测试上实现了可比的加权准确率,同时使用的令牌数比推理模型少89%。重要的是,这种鲁棒性的出现并未依赖于在干扰项增强示例上进行显式训练。我们的结果表明,与自由形式的方法相比,强制执行结构化的中间表示提高了数学推理的鲁棒性和推理效率,尤其是在嘈杂的低资源环境中。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
超越思维链:大型语言模型的X链范式综述
专知会员服务
52+阅读 · 2024年4月28日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员