TaxoBell: Gaussian Box Embeddings for Self-Supervised Taxonomy Expansion - 专知论文

会员服务 ·

0

嵌入 · 监督 · 表示 · 不确定 · 不确定性 ·

TaxoBell: Gaussian Box Embeddings for Self-Supervised Taxonomy Expansion

翻译：TaxoBell：用于自监督分类体系扩展的高斯盒嵌入

Sahil Mishra,Srinitish Srinivasan,Srikanta Bedathur,Tanmoy Chakraborty

from arxiv, Accepted in The Web Conference (WWW) 2026

Taxonomies form the backbone of structured knowledge representation across diverse domains, enabling applications such as e-commerce catalogs, semantic search, and biomedical discovery. Yet, manual taxonomy expansion is labor-intensive and cannot keep pace with the emergence of new concepts. Existing automated methods rely on point-based vector embeddings, which model symmetric similarity and thus struggle with the asymmetric "is-a" relationships that are fundamental to taxonomies. Box embeddings offer a promising alternative by enabling containment and disjointness, but they face key issues: (i) unstable gradients at the intersection boundaries, (ii) no notion of semantic uncertainty, and (iii) limited capacity to represent polysemy or ambiguity. We address these shortcomings with TaxoBell, a Gaussian box embedding framework that translates between box geometries and multivariate Gaussian distributions, where means encode semantic location and covariances encode uncertainty. Energy-based optimization yields stable optimization, robust modeling of ambiguous concepts, and interpretable hierarchical reasoning. Extensive experimentation on five benchmark datasets demonstrates that TaxoBell significantly outperforms eight state-of-the-art taxonomy expansion baselines by 19% in MRR and around 25% in Recall@k. We further demonstrate the advantages and pitfalls of TaxoBell with error analysis and ablation studies.

翻译：分类体系构成了跨领域结构化知识表示的基础，支持电子商务目录、语义搜索和生物医学发现等应用。然而，人工扩展分类体系劳动密集，无法跟上新概念出现的速度。现有自动化方法依赖基于点的向量嵌入，这类方法建模对称相似性，因而难以处理分类体系核心的非对称“is-a”关系。盒嵌入通过支持包含与互斥关系提供了有前景的替代方案，但其面临关键问题：(i) 交集边界处的梯度不稳定，(ii) 缺乏语义不确定性表征，(iii) 表示多义性或歧义的能力有限。我们通过TaxoBell解决这些缺陷，该高斯盒嵌入框架实现了盒几何与多元高斯分布之间的转换，其中均值编码语义位置、协方差编码不确定性。基于能量的优化实现了稳定优化、模糊概念的鲁棒建模以及可解释的层次推理。在五个基准数据集上的大量实验表明，TaxoBell在MRR指标上显著优于八种先进分类体系扩展基线方法19%，在Recall@k指标上提升约25%。我们通过误差分析和消融研究进一步论证了TaxoBell的优势与局限。

0

相关内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

专知会员服务

15+阅读 · 2022年2月14日

【WWW2021】充分利用层级结构进行自监督分类法扩展

【WWW2021】充分利用层级结构进行自监督分类法扩展

专知会员服务

16+阅读 · 2021年2月7日

【论文推荐】具有自我监督功能的在线目录taxonomy扩充 Octet: Online Catalog Taxonomy Enrichment with Self-Supervision

【论文推荐】具有自我监督功能的在线目录taxonomy扩充 Octet: Online Catalog Taxonomy Enrichment with Self-Supervision

专知会员服务

18+阅读 · 2020年7月20日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

【WWW2020-UIUC】TaxoExpan: 图神经网络自监督学习的分类法Taxonomy扩展

【WWW2020-UIUC】TaxoExpan: 图神经网络自监督学习的分类法Taxonomy扩展

专知会员服务

28+阅读 · 2020年3月18日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

如何独立实现一个基于知识图谱的问答系统

如何独立实现一个基于知识图谱的问答系统

PaperWeekly

11+阅读 · 2019年6月13日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

DeepType：用神经分类系统自动实现实体消歧

DeepType：用神经分类系统自动实现实体消歧

论智

20+阅读 · 2018年2月9日

面向生物信息分子运输的介孔晶体及原位SAXS监测

国家自然科学基金

0+阅读 · 2016年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

考虑物品种类有限性的分类存储策略及仓储系统优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data

Arxiv

0+阅读 · 2月18日

TabAgent: A Framework for Replacing Agentic Generative Components with Tabular-Textual Classifiers

Arxiv

0+阅读 · 2月18日

M-CODE: Materials Categorization via Ontology, Dimensionality and Evolution

Arxiv

0+阅读 · 2月16日

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

SIDiffAgent: Self-Improving Diffusion Agent

Arxiv

0+阅读 · 2月2日

MonoScale: Scaling Multi-Agent System with Monotonic Improvement

Arxiv

0+阅读 · 1月30日

GaussianOcc3D: A Gaussian-Based Adaptive Multi-modal 3D Occupancy Prediction

Arxiv

0+阅读 · 1月30日

DiEC: Diffusion Embedded Clustering

Arxiv

0+阅读 · 1月21日

Stop Taking Tokenizers for Granted: They Are Core Design Decisions in Large Language Models

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

综述 | Memory for Large Language Models：大模型记忆机制全景

综述 | Memory for Large Language Models：大模型记忆机制全景

专知会员服务

0+阅读 · 今天14:26

博士论文 | Riemannian Deep Learning：模块、网络与几何

博士论文 | Riemannian Deep Learning：模块、网络与几何

专知会员服务

0+阅读 · 今天14:13

《越野作战环境下路径规划的多准则整数规划模型》

《越野作战环境下路径规划的多准则整数规划模型》

专知会员服务

4+阅读 · 今天8:06

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

专知会员服务

3+阅读 · 今天8:00

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

专知会员服务

3+阅读 · 今天7:53

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

专知会员服务

6+阅读 · 今天7:49

《同步多无人机系统中的故障与通信》

《同步多无人机系统中的故障与通信》

专知会员服务

2+阅读 · 今天6:23

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

3+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

8+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

7+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

8+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

8+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

9+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

6+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

11+阅读 · 7月27日

相关VIP内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

【WWW2022】TaxoEnrich:通过结构语义表示的自监督分类法补全

专知会员服务

15+阅读 · 2022年2月14日

【WWW2021】充分利用层级结构进行自监督分类法扩展

【WWW2021】充分利用层级结构进行自监督分类法扩展

专知会员服务

16+阅读 · 2021年2月7日

【论文推荐】具有自我监督功能的在线目录taxonomy扩充 Octet: Online Catalog Taxonomy Enrichment with Self-Supervision

【论文推荐】具有自我监督功能的在线目录taxonomy扩充 Octet: Online Catalog Taxonomy Enrichment with Self-Supervision

专知会员服务

18+阅读 · 2020年7月20日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

【WWW2020-UIUC】TaxoExpan: 图神经网络自监督学习的分类法Taxonomy扩展

【WWW2020-UIUC】TaxoExpan: 图神经网络自监督学习的分类法Taxonomy扩展

专知会员服务

28+阅读 · 2020年3月18日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

93+阅读 · 2019年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | Riemannian Deep Learning：模块、网络与几何

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

综述 | Memory for Large Language Models：大模型记忆机制全景

《越野作战环境下路径规划的多准则整数规划模型》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

如何独立实现一个基于知识图谱的问答系统

如何独立实现一个基于知识图谱的问答系统

PaperWeekly

11+阅读 · 2019年6月13日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

DeepType：用神经分类系统自动实现实体消歧

DeepType：用神经分类系统自动实现实体消歧

论智

20+阅读 · 2018年2月9日

相关论文

SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data

Arxiv

0+阅读 · 2月18日

TabAgent: A Framework for Replacing Agentic Generative Components with Tabular-Textual Classifiers

Arxiv

0+阅读 · 2月18日

M-CODE: Materials Categorization via Ontology, Dimensionality and Evolution

Arxiv

0+阅读 · 2月16日

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

Anagent For Enhancing Scientific Table & Figure Analysis

Arxiv

0+阅读 · 2月12日

SIDiffAgent: Self-Improving Diffusion Agent

Arxiv

0+阅读 · 2月2日

MonoScale: Scaling Multi-Agent System with Monotonic Improvement

Arxiv

0+阅读 · 1月30日

GaussianOcc3D: A Gaussian-Based Adaptive Multi-modal 3D Occupancy Prediction

Arxiv

0+阅读 · 1月30日

DiEC: Diffusion Embedded Clustering

Arxiv

0+阅读 · 1月21日

Stop Taking Tokenizers for Granted: They Are Core Design Decisions in Large Language Models

Arxiv

0+阅读 · 1月19日

相关基金

面向生物信息分子运输的介孔晶体及原位SAXS监测

国家自然科学基金

0+阅读 · 2016年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

考虑物品种类有限性的分类存储策略及仓储系统优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员