Subtree Mode and Applications - 专知论文

会员服务 ·

0

算法 · 结构 · 生物 · 最优 · 统计量 ·

Subtree Mode and Applications

翻译：子树众数及其应用

Jialong Zhou,Ben Bals,Matei Tinca,Ai Guan,Panagiotis Charalampopoulos,Grigorios Loukides,Solon P. Pissis

from arxiv, For reproduction, code available at https://github.com/JialongZhou666/subtree-mode-mining

The mode of a collection of values (i.e., the most frequent value in the collection) is a key summary statistic. Finding the mode in a given range of an array of values is thus of great importance, and constructing a data structure to solve this problem is in fact the well-known Range Mode problem. In this work, we introduce the Subtree Mode (SM) problem, the analogous problem in a leaf-colored tree, where the task is to compute the most frequent color in the leaves of the subtree of a given node. SM is motivated by several applications in domains such as text analytics and biology, where the data are hierarchical and can thus be represented as a (leaf-colored) tree. Our central contribution is a time-optimal algorithm for SM that computes the answer for every node of an input $N$-node tree in $O(N)$ time. We further show how our solution can be adapted for node-colored trees, or for computing the $k$ most frequent colors, for any given $k=O(1)$, in the optimal $O(N)$ time. Moreover, we prove that a similarly fast solution for when the input is a sink-colored directed acyclic graph instead of a leaf-colored tree is highly unlikely. Our experiments on real datasets with trees of up to $7.3$ billion nodes demonstrate that our algorithm is faster than baselines by at least one order of magnitude and much more space efficient. They also show that it is effective in pattern mining, sequence-to-database search, and biology applications.

翻译：众数（即集合中出现频率最高的值）是一种关键汇总统计量。因此，在给定值数组的某个区间内寻找众数具有重要意义，而构建解决此问题的数据结构实际上就是著名的区间众数问题。在本工作中，我们引入了子树众数问题，即叶着色树中的类似问题，其任务是计算给定节点子树中叶节点中出现频率最高的颜色。子树众数问题受到文本分析和生物学等多个领域应用的推动，这些领域的数据具有层次结构，因此可以表示为（叶着色的）树。我们的核心贡献是一种时间最优的子树众数算法，该算法以$O(N)$时间计算输入$N$节点树中每个节点的答案。我们进一步展示了如何将我们的解决方案适配于节点着色树，或用于计算任意给定$k=O(1)$时的前$k$个最频繁颜色，且均在最优的$O(N)$时间内完成。此外，我们证明，当输入是汇着色的有向无环图而非叶着色树时，类似快速的解决方案极不可能存在。我们在包含多达$73$亿个节点的真实数据集树上的实验表明，我们的算法比基线方法至少快一个数量级，且空间效率更高。实验还证明，该算法在模式挖掘、序列到数据库搜索以及生物学应用中具有良好效果。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【VLDB2023教程】子图提取的机器学习：方法、应用和挑战，90页ppt

【VLDB2023教程】子图提取的机器学习：方法、应用和挑战，90页ppt

专知会员服务

35+阅读 · 2023年9月1日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

量子优化算法综述

专知会员服务

37+阅读 · 2021年9月12日

【经典书】高维概率数据科学应用导论，301页pdf

【经典书】高维概率数据科学应用导论，301页pdf

专知会员服务

92+阅读 · 2021年6月17日

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

专知会员服务

115+阅读 · 2021年3月3日

【清华大学柴成亮博士论文】众包数据库关键技术研究

专知会员服务

15+阅读 · 2020年12月12日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

60+阅读 · 2020年11月21日

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

面试题：数组中子序列的个数

面试题：数组中子序列的个数

七月在线实验室

15+阅读 · 2019年6月26日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

统计学常用数据类型

统计学常用数据类型

论智

19+阅读 · 2018年7月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

一文读懂贝叶斯分类算法（附学习资源）

一文读懂贝叶斯分类算法（附学习资源）

大数据文摘

12+阅读 · 2017年12月14日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子Toroidal代数的表示、应用及推广

国家自然科学基金

1+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

分圆相关的一些问题及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

Selecting Hyperparameters for Tree-Boosting

Arxiv

0+阅读 · 2月5日

Quantum Advantage in Decision Trees: A Weighted Graph and $L_1$ Norm Approach

Arxiv

0+阅读 · 2月4日

Efficient Subgroup Analysis via Optimal Trees with Global Parameter Fusion

Arxiv

0+阅读 · 2月3日

Weighted Sum-of-Trees Model for Clustered Data

Arxiv

0+阅读 · 2月3日

Nested and outlier embeddings into trees

Arxiv

0+阅读 · 1月31日

The Leafed Induced Subtree in chordal and bounded treewidth graphs

Arxiv

0+阅读 · 1月26日

Clustered random forests with correlated data for optimal estimation and inference under potential covariate shift

Arxiv

0+阅读 · 1月23日

Nested and outlier embeddings into trees

Arxiv

0+阅读 · 1月21日

UFO Trees: Practical and Provably-Efficient Parallel Batch-Dynamic Trees

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

3+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

4+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

4+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

5+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

5+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

4+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

9+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

8+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

6+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

8+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

7+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

【VLDB2023教程】子图提取的机器学习：方法、应用和挑战，90页ppt

【VLDB2023教程】子图提取的机器学习：方法、应用和挑战，90页ppt

专知会员服务

35+阅读 · 2023年9月1日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

量子优化算法综述

专知会员服务

37+阅读 · 2021年9月12日

【经典书】高维概率数据科学应用导论，301页pdf

【经典书】高维概率数据科学应用导论，301页pdf

专知会员服务

92+阅读 · 2021年6月17日

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

专知会员服务

115+阅读 · 2021年3月3日

【清华大学柴成亮博士论文】众包数据库关键技术研究

专知会员服务

15+阅读 · 2020年12月12日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

60+阅读 · 2020年11月21日

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

面试题：数组中子序列的个数

面试题：数组中子序列的个数

七月在线实验室

15+阅读 · 2019年6月26日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

统计学常用数据类型

统计学常用数据类型

论智

19+阅读 · 2018年7月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

一文读懂贝叶斯分类算法（附学习资源）

一文读懂贝叶斯分类算法（附学习资源）

大数据文摘

12+阅读 · 2017年12月14日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

Selecting Hyperparameters for Tree-Boosting

Arxiv

0+阅读 · 2月5日

Quantum Advantage in Decision Trees: A Weighted Graph and $L_1$ Norm Approach

Arxiv

0+阅读 · 2月4日

Efficient Subgroup Analysis via Optimal Trees with Global Parameter Fusion

Arxiv

0+阅读 · 2月3日

Weighted Sum-of-Trees Model for Clustered Data

Arxiv

0+阅读 · 2月3日

Nested and outlier embeddings into trees

Arxiv

0+阅读 · 1月31日

The Leafed Induced Subtree in chordal and bounded treewidth graphs

Arxiv

0+阅读 · 1月26日

Clustered random forests with correlated data for optimal estimation and inference under potential covariate shift

Arxiv

0+阅读 · 1月23日

Nested and outlier embeddings into trees

Arxiv

0+阅读 · 1月21日

UFO Trees: Practical and Provably-Efficient Parallel Batch-Dynamic Trees

Arxiv

0+阅读 · 1月15日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子Toroidal代数的表示、应用及推广

国家自然科学基金

1+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

分圆相关的一些问题及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员