Efficient large-scale retrieval requires representations that are both compact and discriminative. Foundation models provide powerful visual and multimodal embeddings, but nearest neighbor search in these high-dimensional spaces is computationally expensive. Hashing offers an efficient alternative by enabling fast Hamming distance search with binary codes, yet existing approaches often rely on complex pipelines, multi-term objectives, designs specialized for a single learning paradigm, and long training times. We introduce CroVCA (Cross-View Code Alignment), a simple and unified principle for learning binary codes that remain consistent across semantically aligned views. A single binary cross-entropy loss enforces alignment, while coding-rate maximization serves as an anti-collapse regularizer to promote balanced and diverse codes. To implement this, we design HashCoder, a lightweight MLP hashing network with a final batch normalization layer to enforce balanced codes. HashCoder can be used as a probing head on frozen embeddings or to adapt encoders efficiently via LoRA fine-tuning. Across benchmarks, CroVCA achieves state-of-the-art results in just 5 training epochs. At 16 bits, it performs particularly well; for instance, unsupervised hashing on COCO completes in under 2 minutes and supervised hashing on ImageNet100 in about 3 minutes on a single GPU. These results highlight CroVCA's efficiency, adaptability, and broad applicability.


翻译:大规模高效检索需要兼具紧凑性与判别性的表示。基础模型提供了强大的视觉与多模态嵌入,但在这些高维空间中进行近邻搜索的计算成本过高。哈希通过二进制码实现快速汉明距离搜索,提供了一种高效替代方案,然而现有方法往往依赖复杂流程、多目标函数、针对单一学习范式设计的专用架构以及较长的训练时间。我们提出CroVCA(跨视图编码对齐),这是一种简单统一的二进制码学习准则,确保语义对齐视图间的编码一致性。单个二进制交叉熵损失实现编码对齐,而编码率最大化则作为抗坍缩正则化项,以促进编码的平衡性与多样性。为实现该准则,我们设计了HashCoder——一种轻量级MLP哈希网络,其末端批归一化层用于强制生成平衡编码。HashCoder可作为探测头应用于冻结嵌入,或通过LoRA微调高效适配编码器。在多个基准测试中,CroVCA仅需5个训练周期即可达到最优结果。当编码长度为16比特时性能尤为突出:例如,在单GPU上,COCO数据集的无监督哈希任务可在2分钟内完成,ImageNet100数据集的有监督哈希任务约需3分钟。这些结果充分彰显了CroVCA的高效性、适应性与广泛适用性。

0
下载
关闭预览

相关内容

【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
15+阅读 · 2022年11月25日
专知会员服务
19+阅读 · 2021年5月16日
专知会员服务
50+阅读 · 2020年6月14日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员