Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.


翻译:在开放世界设置下(即无需预定义标签集)对细粒度视觉概念进行分类,要求模型既准确又具体。近期涌现的推理型大型多模态模型(LMMs)展现出强大的视觉理解能力,但在执行细粒度图像分类时往往产生过于泛化的预测。我们的初步分析表明,模型确实具备内在的细粒度领域知识。然而,在不损害正确预测(正确性)的前提下促进更具体的预测(特异性),仍然是一个重要且尚未被充分研究的挑战。本研究探讨如何引导推理型LMMs生成既正确又具体的预测。我们提出了一种新颖的特异性感知强化学习框架SpeciaRL,用于在开放世界设置下对推理型LMMs进行细粒度图像分类的微调。SpeciaRL引入了一种基于验证器的动态奖励信号,该信号以在线推演过程中的最佳预测为锚点,在提升特异性的同时尊重模型的能力边界以防止错误预测。我们的跨域实验表明,SpeciaRL在广泛的细粒度基准测试中实现了正确性与特异性的最佳权衡,超越了现有方法,并推动了开放世界细粒度图像分类的发展。代码与模型已在 https://github.com/s-angheben/SpeciaRL 公开。

0
下载
关闭预览

相关内容

细粒度图像分类的深度学习方法
专知会员服务
43+阅读 · 2021年10月18日
【博士论文】辨识性特征学习及在细粒度分析中的应用
专知会员服务
31+阅读 · 2020年12月10日
专知会员服务
32+阅读 · 2020年9月2日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
深度强化学习简介
专知
30+阅读 · 2018年12月3日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员