We study the document exchange problem under multiple substring edits. A substring edit in a string $\mathbf{x}$ occurs when a substring $\mathbf{u}$ of $\mathbf{x}$ is replaced by an arbitrary string $\mathbf{v}$. The lengths of $\mathbf{u}$ and $\mathbf{v}$ are bounded from above by a fixed constant. Let $\mathbf{x}$ and $\mathbf{y}$ be two binary strings that differ by multiple substring edits. The aim of document exchange schemes is to construct an encoding of $\mathbf{x}$ with small length such that $\mathbf{x}$ can be recovered using $\mathbf{y}$ and the encoding. We construct a low-complexity document exchange scheme with encoding length of $4t\log n+o(\log n)$ bits, where $n$ is the length of the string $\mathbf{x}$. The best known scheme achieves an encoding length of $4t \log n+O(\log\log n)$ bits, but at a much higher computational complexity. Then, we investigate the average length of valid encodings for document exchange schemes with uniform strings $\mathbf{x}$ and develop a scheme with an expected encoding length of $(4t-1) \log n+o(\log n)$ bits. In this setting, prior works have only constructed schemes for a single substring edit.


翻译:我们研究了多子串编辑下的文档交换问题。字符串 $\mathbf{x}$ 中的子串编辑是指将 $\mathbf{x}$ 的一个子串 $\mathbf{u}$ 替换为任意字符串 $\mathbf{v}$,其中 $\mathbf{u}$ 和 $\mathbf{v}$ 的长度上界由固定常数限定。设 $\mathbf{x}$ 和 $\mathbf{y}$ 为两个因多子串编辑而不同的二进制字符串。文档交换方案的目标是构造一个长度较小的 $\mathbf{x}$ 编码,使得能够利用 $\mathbf{y}$ 和该编码恢复 $\mathbf{x}$。我们构建了一种低复杂度的文档交换方案,其编码长度为 $4t\log n+o(\log n)$ 比特,其中 $n$ 为字符串 $\mathbf{x}$ 的长度。目前已知的最佳方案虽然能达到 $4t \log n+O(\log\log n)$ 比特的编码长度,但其计算复杂度显著更高。随后,我们针对均匀分布字符串 $\mathbf{x}$ 的文档交换方案,研究了有效编码的平均长度,并开发了一种期望编码长度为 $(4t-1) \log n+o(\log n)$ 比特的方案。在此设定下,先前工作仅构建了针对单子串编辑的方案。

0
下载
关闭预览

相关内容

EMNLP2023:MMEdit——如何编辑多模态大语言模型?
专知会员服务
39+阅读 · 2023年11月5日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
【资源】NLP多标签文本分类代码实现工具包
专知
40+阅读 · 2019年11月20日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
用于数学的 10 个优秀编程语言
算法与数据结构
13+阅读 · 2018年1月5日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月19日
VIP会员
相关VIP内容
EMNLP2023:MMEdit——如何编辑多模态大语言模型?
专知会员服务
39+阅读 · 2023年11月5日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
【资源】NLP多标签文本分类代码实现工具包
专知
40+阅读 · 2019年11月20日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
用于数学的 10 个优秀编程语言
算法与数据结构
13+阅读 · 2018年1月5日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员