Given a set of $k$ strings $I$, their longest common subsequence (LCS) is the string with the maximum length that is a subset of all the strings in $I$. A data-structure for this problem preprocesses $I$ into a data-structure such that the LCS of a set of query strings $Q$ with the strings of $I$ can be computed faster. Since the problem is NP-hard for arbitrary $k$, we allow an error that allows some characters to be replaced by other characters. We define the approximation version of the problem with an extra input $m$, which is the length of the regular expression (regex) that describes the input, and the approximation factor is the logarithm of the number of possibilities in the regex returned by the algorithm, divided by the logarithm regex with the minimum number of possibilities. Then, we use a tree data-structure to achieve sublinear-time LCS queries. We also explain how the idea can be extended to the longest increasing subsequence (LIS) problem.


翻译:根据一套美元字符串的一套美元字符串,他们最长的共同子序列(LCS)是最大长度的字符串,这是所有字符串的一个子集,以美元计。这个问题的数据结构预处理美元进入一个数据结构,这样可以更快地计算出一组查询字符串的LCS$Q美元,而字符串为美元。由于问题在于任意的美元,因此我们允许一个错误,允许一些字符被其他字符取代。我们用一个额外的输入美元来定义问题的近似版本,即描述输入的正则表达式(regex)的长度,而近似系数是算法返回的regex中的可能性的对数,除以对数正数正数正数正数和最小的可能性。然后,我们使用树数据结构来达到亚线性时间LCS查询。我们还解释了如何将这一想法扩展至最长的子序列问题。

0
下载
关闭预览

相关内容

正则表达式(Regular Expression,一般简写为RegEx或者RegExp),也译为正规表示法、常规表示法,台湾译「规则运算式」,在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。
【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
43+阅读 · 2020年11月22日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
【哈工大】基于抽取的高考作文生成
专知会员服务
37+阅读 · 2020年3月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【 关关的刷题日记53】 Leetcode 100. Same Tree
专知
10+阅读 · 2017年12月1日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【LeetCode 136】 关关的刷题日记32 Single Number
Arxiv
0+阅读 · 2021年3月8日
Arxiv
0+阅读 · 2021年3月8日
Arxiv
0+阅读 · 2021年3月7日
Arxiv
0+阅读 · 2021年3月4日
VIP会员
最新内容
2025年全球二十起重大无人机作战事件
专知会员服务
2+阅读 · 今天10:39
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
3+阅读 · 今天3:58
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
4+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
7+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
14+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
4+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
3+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
9+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【 关关的刷题日记53】 Leetcode 100. Same Tree
专知
10+阅读 · 2017年12月1日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【LeetCode 136】 关关的刷题日记32 Single Number
Top
微信扫码咨询专知VIP会员