Temporal data (such as news articles or Twitter feeds) often consists of a mixture of long-lasting trends and popular but short-lasting topics of interest. A truly successful topic modeling strategy should be able to detect both types of topics and clearly locate them in time. In this paper, we compare the variability of topic lengths discovered by several well-known topic modeling methods including latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), as well as its tensor counterparts based on the nonnegative CANDECOMP/PARAFAC tensor decomposition (NCPD and Online NCPD). We demonstrate that only tensor-based methods with the dedicated mode for tracking time evolution successfully detect short-lasting topics. Furthermore, these methods are considerably more accurate in discovering the points in time when topics appeared and disappeared compared to the matrix-based methods such as LDA and NMF. We propose quantitative ways to measure the topic length and demonstrate the ability of NCPD (as well as its online variant), to discover short and long-lasting temporal topics in semi-synthetic and real-world data including news headlines and COVID-19 related tweets.


翻译:时间数据(如新闻文章或Twitter种子)往往由长期趋势与受欢迎但短期感兴趣的专题混合组成。一个真正成功的专题示范战略应该能够探测出两种类型的专题并及时明确定位。在本文中,我们比较了几个众所周知的专题模型方法发现的专题长度的变异性,包括潜在的diriclet分配(LDA)、非负矩阵因子化(NMF),以及基于非负性的CANDECOMP/PARAFAC 高频分解(NCPD和在线NPD)的对口方。我们表明,只有以专门跟踪时间演变模式为主的以虫为基础的方法才能成功发现短期专题。此外,与基于矩阵的方法(例如LDA和NMF)相比,这些方法在发现专题出现和消失的时间点方面相当准确。我们提出了衡量专题长度的量化方法,并展示NCDDD(及其在线变式)在半合成和现实世界数据(包括新闻头条和COVI-D-19相关TRV)中发现短期和长期专题的能力。

0
下载
关闭预览

相关内容

专知会员服务
34+阅读 · 2021年9月16日
【精通OpenCV 4】Mastering OpenCV 4 - Third Edition 随书代码
专知会员服务
40+阅读 · 2019年11月13日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
3+阅读 · 2014年10月9日
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
1+阅读 · 31分钟前
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 49分钟前
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 59分钟前
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
12+阅读 · 4月25日
多智能体协作机制
专知会员服务
11+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
相关VIP内容
专知会员服务
34+阅读 · 2021年9月16日
【精通OpenCV 4】Mastering OpenCV 4 - Third Edition 随书代码
专知会员服务
40+阅读 · 2019年11月13日
相关资讯
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员