Identifying species in biology among tens of thousands of visually similar taxa while discovering unknown species in open-world environments remains a fundamental challenge in biodiversity research. Current methods treat identification and discovery as separate problems, with classification models assuming closed sets and discovery relying on threshold-based rejection. Here we present DeepTaxon, a retrieval-augmented multimodal framework that unifies species identification and discovery through interpretable reasoning over retrieved visual evidence. Given a query image, DeepTaxon retrieves the top-$k$ candidate species with $n$ exemplar images each from a retrieval index and performs chain-of-thought comparative reasoning. Critically, we redefine discovery as an explicit, retrieval-based decision problem rather than an implicit parametric memory problem. A sample is novel if and only if the retrieval index lacks sufficient evidence for identification, so each retrieval naturally yields a classification or discovery label without manual annotation, thereby providing automatic supervision for both tasks. We train the framework via supervised fine-tuning on synthetic retrieval-augmented data, followed by reinforcement learning on hard samples, converting high-recall retrieval into high-precision decisions that scale to massive taxonomic vocabularies. Extensive experiments on a large-scale in-distribution benchmark and six out-of-distribution datasets demonstrate consistent improvements in both identification and discovery. Ablation studies further reveal effective test-time scaling with candidate count $k$ and exemplar count $n$, strong zero-shot transfer to unseen domains, and consistent performance across retrieval encoders, establishing an interpretable solution for biodiversity research.


翻译:在生物学中,从数万视觉相似类群中鉴定物种,同时在开放世界环境下发现未知物种,仍是生物多样性研究中的根本性挑战。现有方法将鉴定与发现视为独立问题:分类模型假设闭合集合,而发现依赖基于阈值的拒绝策略。本文提出DeepTaxon——一种检索增强多模态框架,通过对检索所得视觉证据进行可解释推理,将物种鉴定与发现任务统一起来。对于给定查询图像,DeepTaxon从检索索引中获取前k个候选物种(每个候选物种附带n个范例图像),并执行思维链比较推理。关键创新在于,我们将物种发现重新定义为显式的基于检索的决策问题,而非隐式的参数记忆问题:若且仅若检索索引缺乏足够证据支持鉴定时,样本才被视为新物种。由此,每次检索自然产生分类或发现标签,无需人工标注即可为两类任务提供自动监督。我们通过监督微调在合成检索增强数据上训练该框架,随后对困难样本进行强化学习,将高召回率的检索转化为高精度的决策,并可扩展至海量分类词汇。在大型分布内基准数据集及六个分布外数据集上的大量实验表明,该方法在鉴定与发现两项任务上均实现了一致性能提升。消融实验进一步揭示了候选数k与范例数n的测试时有效缩放效应、对未见过领域的强零样本迁移能力,以及在多种检索编码器上的一致性表现,为生物多样性研究建立了可解释的解决方案。

0
下载
关闭预览

相关内容

专知会员服务
62+阅读 · 2021年3月25日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
专知会员服务
62+阅读 · 2021年3月25日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员