Boolean matrix factorization (BMF) is a fundamental tool for analyzing binary data and discovering latent information hidden in the data. Formal Concept Analysis (FCA) provides us with an essential insight into BMF and the design of algorithms. Due to FCA, we have the GreCon and GreCon2 algorithms providing high-quality factorizations at the cost of high memory consumption and long running times. In this paper, we introduce GreCon3, a substantial revision of these algorithms, significantly improving both computational efficiency and memory usage. These improvements are achieved with a novel space-efficient data structure that tracks unprocessed data. Further, a novel strategy incrementally initializing this data structure is proposed. This strategy reduces memory consumption and omits data irrelevant to the remainder of the computation. Moreover, we show that the first factors can be discovered with less effort. Since the first factors tend to describe large portions of the data, this optimization, along with others, significantly contributes to the overall improvement of the algorithm's performance. An experimental evaluation shows that GreCon3 substantially outperforms its predecessor GreCon2. The proposed algorithm thus advances the state of the art in BMF based on FCA and enables efficient factorization of datasets previously infeasible for the GreCon algorithm.


翻译:布尔矩阵分解(BMF)是分析二进制数据及发掘数据中隐含潜在信息的基础工具。形式概念分析(FCA)为BMF及算法设计提供了关键理论视角。基于FCA,GreCon与GreCon2算法能够提供高质量分解,但代价是高昂的内存消耗与较长的运行时间。本文提出GreCon3算法,作为对前述算法的重大改进版本,显著提升了计算效率并降低了内存占用。这些改进通过一种新颖的、用于追踪未处理数据的空间高效数据结构实现。此外,本文提出一种增量式初始化该数据结构的创新策略,该策略不仅降低了内存消耗,还剔除了与后续计算无关的数据。进一步地,我们证明了首轮因子的发现可消耗更少计算资源。由于初始因子往往能描述数据的较大部分,此项优化与其他改进共同显著提升了算法的整体性能。实验评估表明,GreCon3在性能上大幅超越其前代算法GreCon2。因此,所提算法推动了基于FCA的BMF技术发展,使得对以往GreCon算法难以处理的数据集进行高效分解成为可能。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【IEEE ICASSP 2022教程】非负矩阵分解的最新进展,266页ppt
专知会员服务
79+阅读 · 2022年5月28日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【Code】GraphSAGE 源码解析
AINLP
31+阅读 · 2020年6月22日
Github热门图深度学习(GraphDL)源码与框架
新智元
21+阅读 · 2019年3月19日
图神经网络概述第三弹:来自IEEE Fellow的GNN综述
机器之心
46+阅读 · 2019年1月7日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
【IEEE ICASSP 2022教程】非负矩阵分解的最新进展,266页ppt
专知会员服务
79+阅读 · 2022年5月28日
相关资讯
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【Code】GraphSAGE 源码解析
AINLP
31+阅读 · 2020年6月22日
Github热门图深度学习(GraphDL)源码与框架
新智元
21+阅读 · 2019年3月19日
图神经网络概述第三弹:来自IEEE Fellow的GNN综述
机器之心
46+阅读 · 2019年1月7日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员