Multi-modal large language models (MLLMs) exhibit strong general-purpose capabilities, yet still struggle on Fine-Grained Visual Classification (FGVC), a core perception task that requires subtle visual discrimination and is crucial for many real-world applications. A widely adopted strategy for boosting performance on challenging tasks such as math and coding is Chain-of-Thought (CoT) reasoning. However, several prior works have reported that CoT can actually harm performance on visual perception tasks. These studies, though, examine the issue from relatively narrow angles and leave open why CoT degrades perception-heavy performance. We systematically re-examine the role of CoT in FGVC through the lenses of zero-shot evaluation and multiple training paradigms. Across these settings, we uncover a central paradox: the degradation induced by CoT is largely driven by the reasoning length, in which longer textual reasoning consistently lowers classification accuracy. We term this phenomenon the ``Cost of Thinking''. Building on this finding, we make two key contributions: (1) \alg, a simple and general plug-and-play normalization method for multi-reward optimization that balances heterogeneous reward signals, and (2) ReFine-RFT, a framework that combines ensemble rewards with \alg to constrain reasoning length while providing dense accuracy-oriented feedback. Extensive experiments demonstrate the effectiveness of our findings and the proposed ReFine-RFT, achieving state-of-the-art performance across FGVC benchmarks. Code and models are available at \href{https://github.com/jiezhu23/ReFine-RFT}{Project Link}.


翻译:多模态大语言模型展现出强大的通用能力,但在细粒度视觉分类这一核心感知任务上仍面临挑战。该任务需要细微的视觉辨别能力,对众多现实应用至关重要。为提升数学和编程等困难任务的性能,一种广泛采用的策略是思维链推理。然而,多项先前研究指出,思维链实际上可能损害视觉感知任务的性能。这些研究虽从相对局限的视角探讨了该问题,但尚未揭示思维链为何会降低感知密集型任务的表现。我们通过零样本评估与多种训练范式的视角,系统性地重新审视了思维链在细粒度视觉分类中的作用。在这些设定下,我们揭示了一个核心悖论:思维链导致的性能下降主要由推理长度驱动,即更长的文本推理会持续降低分类准确率。我们将此现象称为“思考代价”。基于这一发现,我们做出了两项关键贡献:(1) \alg,一种简单通用的即插即用归一化方法,用于多奖励优化以平衡异构奖励信号;(2) ReFine-RFT,一个结合集成奖励与 \alg 的框架,可在约束推理长度的同时提供密集的准确性导向反馈。大量实验验证了我们发现的可靠性及所提 ReFine-RFT 的有效性,其在细粒度视觉分类基准测试中达到了最先进的性能。代码与模型已发布于 \href{https://github.com/jiezhu23/ReFine-RFT}{项目链接}。

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2021年10月14日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员