Traditional vision-language models struggle with contrastive fine-grained taxonomic reasoning, particularly when distinguishing between visually similar species within the same genus or family. We introduce TaxonRL, a reinforcement learning approach using Group Relative Policy Optimization with intermediate rewards that decomposes the reasoning process into hierarchical taxonomic predictions. Our method incentivizes models to explicitly reason about species-level, genus-level, and family-level features before making final classifications. This structured approach is designed not only to boost accuracy but also to yield a transparent, verifiable decision-making process. On the challenging Birds-to-Words dataset, TaxonRL achieves 91.7\% average accuracy, exceeding human performance (77.3\%) while generating interpretable reasoning traces. We demonstrate strong cross-domain generalization, showing substantial gains in primate and marine species verification. Our results establish that enforcing structured, hierarchical reasoning provides a powerful and transferable framework for fine-grained visual discrimination.


翻译:传统的视觉-语言模型在对比性细粒度分类学推理方面存在困难,尤其是在区分同一属或同一科中视觉相似物种时。我们提出了TaxonRL,一种采用分组相对策略优化与中间奖励的强化学习方法,将推理过程分解为层次化的分类学预测。该方法激励模型在进行最终分类前,显式地对物种级、属级和科级特征进行推理。这种结构化方法不仅旨在提升准确率,还能产生透明、可验证的决策过程。在具有挑战性的Birds-to-Words数据集上,TaxonRL实现了91.7%的平均准确率,超越了人类表现(77.3%),同时生成可解释的推理轨迹。我们展示了强大的跨领域泛化能力,在灵长类和海洋物种验证任务中取得了显著提升。我们的结果表明,强制执行结构化、层次化的推理为细粒度视觉判别提供了一个强大且可迁移的框架。

0
下载
关闭预览

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
层级强化学习概念简介
CreateAMind
20+阅读 · 2019年6月9日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
无人机与反无人机系统(书籍)
专知会员服务
11+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
3+阅读 · 今天5:49
技术、多域威慑与海上战争(报告)
专知会员服务
8+阅读 · 4月13日
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
5+阅读 · 4月13日
人工智能及其在海军行动中的整合(综述)
专知会员服务
7+阅读 · 4月13日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员