更快速、更简单的在线字符串净频率计算 (Faster and Simpler Online Computation of String Net Frequency) - 专知论文

会员服务 ·

0

算法 · 在线 · 后缀树 · 报告 · 结构 ·

2025 年 12 月 30 日

Faster and Simpler Online Computation of String Net Frequency

翻译：更快速、更简单的在线字符串净频率计算

Shunsuke Inenaga

An occurrence of a repeated substring $u$ in a string $S$ is called a net occurrence if extending the occurrence to the left or to the right decreases the number of occurrences to 1. The net frequency (NF) of a repeated substring $u$ in a string $S$ is the number of net occurrences of $u$ in $S$. Very recently, Guo et al. [SPIRE 2024] proposed an online $O(n \log σ)$-time algorithm that maintains a data structure of $O(n)$ space which answers Single-NF queries in $O(m\log σ+ σ^2)$ time and reports all answers of the All-NF problem in $O(nσ^2)$ time. Here, $n$ is the length of the input string $S$, $m$ is the query pattern length, and $σ$ is the alphabet size. The $σ^2$ term is a major drawback of their method since computing string net frequencies is originally motivated for Chinese language processing where $σ$ can be thousands large. This paper presents an improved online $O(n \log σ)$-time algorithm, which answers Single-NF queries in $O(m \log σ)$ time and reports all answers to the All-NF problem in output-optimal $O(|\mathsf{NF}^+(S)|)$ time, where $\mathsf{NF}^+(S)$ is the set of substrings of $S$ paired with their positive NF values. We note that $|\mathsf{NF}^+(S)| = O(n)$ always holds. In contract to Guo et al.'s algorithm that is based on Ukkonen's suffix tree construction, our algorithm is based on Weiner's suffix tree construction.

翻译：字符串 $S$ 中重复子串 $u$ 的一个出现被称为净出现，如果将该出现向左或向右扩展会使其出现次数减少为 1。字符串 $S$ 中重复子串 $u$ 的净频率（NF）是 $u$ 在 $S$ 中净出现的次数。最近，Guo 等人 [SPIRE 2024] 提出了一种在线 $O(n \log σ)$ 时间算法，该算法维护一个 $O(n)$ 空间的数据结构，能够在 $O(m\log σ+ σ^2)$ 时间内回答单次净频率查询，并在 $O(nσ^2)$ 时间内报告所有净频率问题的答案。其中，$n$ 是输入字符串 $S$ 的长度，$m$ 是查询模式串的长度，$σ$ 是字母表大小。$σ^2$ 项是他们方法的一个主要缺点，因为计算字符串净频率最初是受中文处理的启发，而中文的 $σ$ 可能高达数千。本文提出了一种改进的在线 $O(n \log σ)$ 时间算法，该算法能够在 $O(m \log σ)$ 时间内回答单次净频率查询，并以输出最优的 $O(|\mathsf{NF}^+(S)|)$ 时间报告所有净频率问题的答案，其中 $\mathsf{NF}^+(S)$ 是 $S$ 中与其正净频率值配对的子串集合。我们注意到 $|\mathsf{NF}^+(S)| = O(n)$ 始终成立。与 Guo 等人基于 Ukkonen 后缀树构造的算法不同，我们的算法基于 Weiner 的后缀树构造。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

【MIT博士论文】简单、快速、可扩展、可靠的多处理器算法，358页pdf

【MIT博士论文】简单、快速、可扩展、可靠的多处理器算法，358页pdf

专知会员服务

26+阅读 · 2023年5月1日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【普林斯顿Sanjeev Arora教授干货书】计算复杂度，一种现代方法，489页pdf

【普林斯顿Sanjeev Arora教授干货书】计算复杂度，一种现代方法，489页pdf

专知会员服务

57+阅读 · 2022年1月18日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

专知会员服务

10+阅读 · 2019年11月3日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

重磅！最新目标检测网络：Matrix Net，47.8 mAP！速度提高3倍！

重磅！最新目标检测网络：Matrix Net，47.8 mAP！速度提高3倍！

极市平台

10+阅读 · 2019年8月17日

复现 | FastDVDNet：实时视频去噪算法

复现 | FastDVDNet：实时视频去噪算法

CVer

13+阅读 · 2019年7月12日

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

极市平台

17+阅读 · 2019年5月10日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

推荐系统算法合集，满满都是干货（建议收藏）

推荐系统算法合集，满满都是干货（建议收藏）

七月在线实验室

17+阅读 · 2018年7月23日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

端频率信号的离散频谱校正方法及应用基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

具有大线性复杂度的最优部分汉明相关跳频序列集的构造研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

QuadRank: Engineering a High Throughput Rank

Arxiv

0+阅读 · 2月4日

UniSymNet: A Unified Symbolic Network Guided by Transformer

Arxiv

0+阅读 · 2月1日

R-enum Revisited: Speedup and Extension for Context-Sensitive Repeats and Net Frequencies

Arxiv

0+阅读 · 1月25日

Identification capacity and rate-query tradeoffs in classification systems

Arxiv

0+阅读 · 1月22日

Computing Maximal Repeating Subsequences in a String

Arxiv

0+阅读 · 1月18日

On the Number of Subsequences in the Nonbinary Deletion Channel

Arxiv

0+阅读 · 1月10日

Efficient Algorithms to Compute Closed Substrings

Arxiv

0+阅读 · 1月8日

Minimmit: Fast Finality with Even Faster Blocks

Arxiv

0+阅读 · 1月7日

Text Indexing and Pattern Matching with Ephemeral Edits

Arxiv

0+阅读 · 1月7日

Probabilistic verification algorithm for linear codes

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

相关VIP内容

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

【MIT博士论文】简单、快速、可扩展、可靠的多处理器算法，358页pdf

【MIT博士论文】简单、快速、可扩展、可靠的多处理器算法，358页pdf

专知会员服务

26+阅读 · 2023年5月1日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【普林斯顿Sanjeev Arora教授干货书】计算复杂度，一种现代方法，489页pdf

【普林斯顿Sanjeev Arora教授干货书】计算复杂度，一种现代方法，489页pdf

专知会员服务

57+阅读 · 2022年1月18日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

专知会员服务

10+阅读 · 2019年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

重磅！最新目标检测网络：Matrix Net，47.8 mAP！速度提高3倍！

重磅！最新目标检测网络：Matrix Net，47.8 mAP！速度提高3倍！

极市平台

10+阅读 · 2019年8月17日

复现 | FastDVDNet：实时视频去噪算法

复现 | FastDVDNet：实时视频去噪算法

CVer

13+阅读 · 2019年7月12日

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

极市平台

17+阅读 · 2019年5月10日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

推荐系统算法合集，满满都是干货（建议收藏）

推荐系统算法合集，满满都是干货（建议收藏）

七月在线实验室

17+阅读 · 2018年7月23日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

相关论文

QuadRank: Engineering a High Throughput Rank

Arxiv

0+阅读 · 2月4日

UniSymNet: A Unified Symbolic Network Guided by Transformer

Arxiv

0+阅读 · 2月1日

R-enum Revisited: Speedup and Extension for Context-Sensitive Repeats and Net Frequencies

Arxiv

0+阅读 · 1月25日

Identification capacity and rate-query tradeoffs in classification systems

Arxiv

0+阅读 · 1月22日

Computing Maximal Repeating Subsequences in a String

Arxiv

0+阅读 · 1月18日

On the Number of Subsequences in the Nonbinary Deletion Channel

Arxiv

0+阅读 · 1月10日

Efficient Algorithms to Compute Closed Substrings

Arxiv

0+阅读 · 1月8日

Minimmit: Fast Finality with Even Faster Blocks

Arxiv

0+阅读 · 1月7日

Text Indexing and Pattern Matching with Ephemeral Edits

Arxiv

0+阅读 · 1月7日

Probabilistic verification algorithm for linear codes

Arxiv

0+阅读 · 1月4日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

端频率信号的离散频谱校正方法及应用基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

具有大线性复杂度的最优部分汉明相关跳频序列集的构造研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员