A function $\varphi:\{0,1\}^n \to \{0,1\}^N$ is called an isometric embedding of the $n$-dimensional Hamming metric space to the $N$-dimensional edit metric space if, for all $x,y\in\{0,1\}^n$, the Hamming distance between $x$ and $y$ is equal to the edit distance between $\varphi(x)$ and $\varphi(y)$. The rate of such an embedding is defined as the ratio $n/N$. It is well known in the literature how to construct isometric embeddings with rate $Ω(1/\log n)$. However, achieving even near-isometric embeddings with positive constant rate has remained elusive until now. In this paper, we present an isometric embedding with rate $1/8$ by discovering connections to synchronization strings, which were studied in the context of insertion-deletion codes (Haeupler-Shahrasbi [JACM'21]). At a technical level, we introduce a framework for obtaining high-rate isometric embeddings using a novel object called misaligners. As an immediate consequence of our constant-rate isometric embedding, we improve known conditional lower bounds for various optimization problems in the edit metric, now with optimal dependence on the dimension. We complement our results by showing that no isometric embedding $\varphi:\{0,1\}^n \to \{0,1\}^N$ can have rate greater than $15/32$ for all positive integers $n$. En route to proving this upper bound, we uncover fundamental structural properties necessary for every Hamming-to-edit isometric embedding. We also prove similar upper and lower bounds for embeddings over larger alphabets. Finally, we consider embeddings $\varphi:Σ_{\mathrm{in}}^n \to Σ_{\mathrm{out}}^N$ between different input and output alphabets, where the rate is given by $\frac{n\log|Σ_{\mathrm{in}}|}{N\log|Σ_{\mathrm{out}}|}$. In this setting, we show that the rate can be made arbitrarily close to $1$.


翻译:函数$\varphi:\{0,1\}^n \to \{0,1\}^N$称为$n$维Hamming度量空间到$N$维编辑度量空间的等距嵌入,如果对所有$x,y\in\{0,1\}^n$,$x$和$y$之间的Hamming距离等于$\varphi(x)$和$\varphi(y)$之间的编辑距离。此类嵌入的率定义为比值$n/N$。文献中众所周知如何构造率为$Ω(1/\log n)$的等距嵌入。然而,实现正恒定率的近等距嵌入至今仍难以捉摸。本文通过发现与同步字符串(在插入-删除码背景下研究,参见Haeupler-Shahrasbi [JACM'21])的联系,提出了一种率为$1/8$的等距嵌入。在技术层面,我们引入了一个框架,利用一种称为misaligners的新颖对象来获得高率等距嵌入。作为恒定率等距嵌入的直接后果,我们改进了编辑度量中各种优化问题的已知条件性下界,现在具有关于维度的最优依赖性。我们通过证明对于所有正整数$n$,不存在率大于$15/32$的等距嵌入$\varphi:\{0,1\}^n \to \{0,1\}^N$来补充我们的结果。在证明这一上界的过程中,我们揭示了每个Hamming到编辑等距嵌入所必需的基本结构性质。我们还证明了更大字母表上嵌入的类似上界和下界。最后,我们考虑不同输入和输出字母表之间的嵌入$\varphi:Σ_{\mathrm{in}}^n \to Σ_{\mathrm{out}}^N$,其率由$\frac{n\log|Σ_{\mathrm{in}}|}{N\log|Σ_{\mathrm{out}}|}$给出。在此设置下,我们表明率可以任意接近$1$。

0
下载
关闭预览

相关内容

[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
17+阅读 · 2020年11月8日
图节点嵌入(Node Embeddings)概述,9页pdf
专知会员服务
40+阅读 · 2020年8月22日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月24日
VIP会员
相关主题
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
17+阅读 · 2020年11月8日
图节点嵌入(Node Embeddings)概述,9页pdf
专知会员服务
40+阅读 · 2020年8月22日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员