Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models - 专知论文

会员服务 ·

0

哈希 · 哈希方法 · 预训练 · 基线 · 嵌入 ·

Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models

翻译：哈希基线：预训练模型时代对哈希方法的再思考

Ilyass Moummad,Kawtar Zaher,Lukas Rauch,Alexis Joly

Information retrieval with compact binary embeddings, also referred to as hashing, is crucial for scalable fast search applications, yet state-of-the-art hashing methods require expensive, scenario-specific training. In this work, we introduce Hashing-Baseline, a strong training-free hashing method leveraging powerful pretrained encoders that produce rich pretrained embeddings. We revisit classical, training-free hashing techniques: principal component analysis, random orthogonal projection, and threshold binarization, to produce a strong baseline for hashing. Our approach combines these techniques with frozen embeddings from state-of-the-art vision and audio encoders to yield competitive retrieval performance without any additional learning or fine-tuning. To demonstrate the generality and effectiveness of this approach, we evaluate it on standard image retrieval benchmarks as well as a newly introduced benchmark for audio hashing.

翻译：使用紧凑二进制嵌入进行信息检索（通常称为哈希）对于可扩展的快速搜索应用至关重要，然而最先进的哈希方法需要昂贵且针对特定场景的训练。本工作提出哈希基线——一种利用强大预训练编码器生成丰富预训练嵌入的无训练哈希方法。我们重新审视经典的无训练哈希技术：主成分分析、随机正交投影和阈值二值化，从而构建出强大的哈希基准方法。该方法将这些技术与最先进的视觉和音频编码器生成的冻结嵌入相结合，无需任何额外学习或微调即可获得具有竞争力的检索性能。为验证该方法的通用性和有效性，我们在标准图像检索基准以及新引入的音频哈希基准上进行了评估。

0

相关内容

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【计算所&清华等新书】预训练方法信息检索，109页pdf

【计算所&清华等新书】预训练方法信息检索，109页pdf

专知会员服务

66+阅读 · 2021年11月30日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

深度哈希图像检索综述论文，14页pdf

专知会员服务

50+阅读 · 2020年6月14日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

专知

29+阅读 · 2019年9月25日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

基于二进制哈希编码快速学习的快速图像检索

基于二进制哈希编码快速学习的快速图像检索

极市平台

12+阅读 · 2018年5月17日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

两类带导数的非线性Schrodinger方程拟周期解的存在性

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

两类哈密顿偏微分方程拟周期解问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Arxiv

0+阅读 · 2月19日

Evolution of Concepts in Language Model Pre-Training

Arxiv

0+阅读 · 2月14日

Learnable Chernoff Baselines for Inference-Time Alignment

Arxiv

0+阅读 · 2月13日

Efficient Streaming Algorithms for Two-Dimensional Congruence Testing and Geometric Hashing

Arxiv

0+阅读 · 2月13日

DET-LSH: A Locality-Sensitive Hashing Scheme with Dynamic Encoding Tree for Approximate Nearest Neighbor Search

Arxiv

0+阅读 · 2月10日

Modern Minimal Perfect Hashing: A Survey

Modern Minimal Perfect Hashing: A Survey

Arxiv

0+阅读 · 2月5日

Adaptive Hashing: Faster Hash Functions with Fewer Collisions

Arxiv

0+阅读 · 2月5日

OrLog: Resolving Complex Queries with LLMs and Probabilistic Reasoning

Arxiv

0+阅读 · 1月30日

UniHash: Unifying Pointwise and Pairwise Hashing Paradigms for Seen and Unseen Category Retrieval

Arxiv

0+阅读 · 1月20日

PREGEN: Uncovering Latent Thoughts in Composed Video Retrieval

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【计算所&清华等新书】预训练方法信息检索，109页pdf

【计算所&清华等新书】预训练方法信息检索，109页pdf

专知会员服务

66+阅读 · 2021年11月30日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

深度哈希图像检索综述论文，14页pdf

专知会员服务

50+阅读 · 2020年6月14日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

专知

29+阅读 · 2019年9月25日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

基于二进制哈希编码快速学习的快速图像检索

基于二进制哈希编码快速学习的快速图像检索

极市平台

12+阅读 · 2018年5月17日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

相关论文

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Arxiv

0+阅读 · 2月19日

Evolution of Concepts in Language Model Pre-Training

Arxiv

0+阅读 · 2月14日

Learnable Chernoff Baselines for Inference-Time Alignment

Arxiv

0+阅读 · 2月13日

Efficient Streaming Algorithms for Two-Dimensional Congruence Testing and Geometric Hashing

Arxiv

0+阅读 · 2月13日

DET-LSH: A Locality-Sensitive Hashing Scheme with Dynamic Encoding Tree for Approximate Nearest Neighbor Search

Arxiv

0+阅读 · 2月10日

Modern Minimal Perfect Hashing: A Survey

Modern Minimal Perfect Hashing: A Survey

Arxiv

0+阅读 · 2月5日

Adaptive Hashing: Faster Hash Functions with Fewer Collisions

Arxiv

0+阅读 · 2月5日

OrLog: Resolving Complex Queries with LLMs and Probabilistic Reasoning

Arxiv

0+阅读 · 1月30日

UniHash: Unifying Pointwise and Pairwise Hashing Paradigms for Seen and Unseen Category Retrieval

Arxiv

0+阅读 · 1月20日

PREGEN: Uncovering Latent Thoughts in Composed Video Retrieval

Arxiv

0+阅读 · 1月20日

相关基金

两类带导数的非线性Schrodinger方程拟周期解的存在性

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

两类哈密顿偏微分方程拟周期解问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员