TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes - 专知论文

会员服务 ·

0

模态 · 主题建模 · 嵌入 · 迭代优化 · 近邻 ·

TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes

翻译：TriTopic：基于三模态图与迭代优化的主题建模框架

from arxiv, 11 pages, 7 figures

Topic modeling extracts latent themes from large text collections, but leading approaches like BERTopic face critical limitations: stochastic instability, loss of lexical precision ("Embedding Blur"), and reliance on a single data perspective. We present TriTopic, a framework that addresses these weaknesses through a tri-modal graph fusing semantic embeddings, TF-IDF, and metadata. Three core innovations drive its performance: hybrid graph construction via Mutual kNN and Shared Nearest Neighbors to eliminate noise and combat the curse of dimensionality; Consensus Leiden Clustering for reproducible, stable partitions; and Iterative Refinement that sharpens embeddings through dynamic centroid-pulling. TriTopic also replaces the "average document" concept with archetype-based topic representations defined by boundary cases rather than centers alone. In benchmarks across 20 Newsgroups, BBC News, AG News, and Arxiv, TriTopic achieves the highest NMI on every dataset (mean NMI 0.575 vs. 0.513 for BERTopic, 0.416 for NMF, 0.299 for LDA), guarantees 100% corpus coverage with 0% outliers, and is available as an open-source PyPI library.

翻译：主题建模旨在从大规模文本集合中提取潜在主题，但当前主流方法（如BERTopic）面临若干关键局限：随机性导致的稳定性不足、词汇精度损失（“嵌入模糊”现象）以及依赖单一数据视角。本文提出TriTopic框架，通过融合语义嵌入、TF-IDF与元数据的三模态图解决上述问题。其性能提升源于三大核心创新：采用互惠k近邻与共享最近邻的混合图构建方法，以消除噪声并缓解维度灾难；基于共识的Leiden聚类算法，实现可复现的稳定划分；以及通过动态质心牵引机制锐化嵌入表示的迭代优化流程。此外，TriTopic以原型化主题表征取代传统的“平均文档”概念，通过边界样本而非仅依赖中心点定义主题。在20 Newsgroups、BBC News、AG News和Arxiv数据集上的实验表明，TriTopic在所有数据集上均取得最高归一化互信息值（平均NMI为0.575，对比BERTopic的0.513、NMF的0.416、LDA的0.299），保证100%语料覆盖率且零异常文档，并已作为开源PyPI库发布。

0

相关内容

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

专知会员服务

31+阅读 · 2025年11月16日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

KDD20 | 主题模型在图模型中的应用专题

专知会员服务

31+阅读 · 2020年9月13日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

【综述】短文本主题建模最新综述（附17页全文下载）

【综述】短文本主题建模最新综述（附17页全文下载）

专知

33+阅读 · 2019年4月17日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

专知

14+阅读 · 2018年6月24日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

机器学习研究会

40+阅读 · 2017年11月16日

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

专知

21+阅读 · 2017年11月15日

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于检索优化的三维特征建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向三维服装建模的形状分析与处理方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Arxiv

0+阅读 · 4月30日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Arxiv

0+阅读 · 4月20日

THETA: A Textual Hybrid Embedding-based Topic Analysis Framework and AI Scientist Agent for Scalable Computational Social Science

Arxiv

0+阅读 · 4月14日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

PR3DICTR: A modular AI framework for medical 3D image-based detection and outcome prediction

Arxiv

0+阅读 · 4月3日

TRACE: High-Fidelity 3D Scene Editing via Tangible Reconstruction and Geometry-Aligned Contextual Video Masking

Arxiv

0+阅读 · 4月1日

Hybrid topic modelling for computational close reading: Mapping narrative themes in Pushkin's Evgenij Onegin

Arxiv

0+阅读 · 3月20日

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Arxiv

0+阅读 · 3月12日

THETA: A Textual Hybrid Embedding-based Topic Analysis Framework and AI Scientist Agent for Scalable Computational Social Science

Arxiv

0+阅读 · 3月6日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

专知会员服务

31+阅读 · 2025年11月16日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

KDD20 | 主题模型在图模型中的应用专题

专知会员服务

31+阅读 · 2020年9月13日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

【综述】短文本主题建模最新综述（附17页全文下载）

【综述】短文本主题建模最新综述（附17页全文下载）

专知

33+阅读 · 2019年4月17日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

专知

14+阅读 · 2018年6月24日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

机器学习研究会

40+阅读 · 2017年11月16日

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

专知

21+阅读 · 2017年11月15日

相关论文

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Arxiv

0+阅读 · 4月30日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Arxiv

0+阅读 · 4月20日

THETA: A Textual Hybrid Embedding-based Topic Analysis Framework and AI Scientist Agent for Scalable Computational Social Science

Arxiv

0+阅读 · 4月14日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

PR3DICTR: A modular AI framework for medical 3D image-based detection and outcome prediction

Arxiv

0+阅读 · 4月3日

TRACE: High-Fidelity 3D Scene Editing via Tangible Reconstruction and Geometry-Aligned Contextual Video Masking

Arxiv

0+阅读 · 4月1日

Hybrid topic modelling for computational close reading: Mapping narrative themes in Pushkin's Evgenij Onegin

Arxiv

0+阅读 · 3月20日

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Arxiv

0+阅读 · 3月12日

THETA: A Textual Hybrid Embedding-based Topic Analysis Framework and AI Scientist Agent for Scalable Computational Social Science

Arxiv

0+阅读 · 3月6日

相关基金

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于检索优化的三维特征建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向三维服装建模的形状分析与处理方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员