The increasing volume and complexity of scientific literature demand robust methods for organizing and understanding research documents. In this study, we explore how structured knowledge, specifically, subject-predicate-object triples, can enhance the clustering and classification of scientific papers. We propose a modular pipeline that combines unsupervised clustering and supervised classification over multiple document representations: raw abstracts, extracted triples, and hybrid formats that integrate both. Using a filtered arXiv corpus, we extract relational triples from abstracts and construct four text representations, which we embed using four state-of-the-art transformer models: MiniLM, MPNet, SciBERT, and SPECTER. We evaluate the resulting embeddings with KMeans, GMM, and HDBSCAN for unsupervised clustering, and fine-tune classification models for arXiv subject prediction. Our results show that full abstract text yields the most coherent clusters, but that hybrid representations incorporating triples consistently improve classification performance, reaching up to 92.6% accuracy and 0.925 macro-F1. We also find that lightweight sentence encoders (MiniLM, MPNet) outperform domain-specific models (SciBERT, SPECTER) in clustering, while SciBERT excels in structured-input classification. These findings highlight the complementary benefits of combining unstructured text with structured knowledge, offering new insights into knowledge-infused representations for semantic organization of scientific documents.


翻译:科学文献数量与复杂性的日益增长,亟需稳健的方法来组织和理解研究文档。本研究探讨结构化知识——特别是主语-谓语-宾语三元组——如何提升科学论文的聚类与分类效果。我们提出一种模块化流程,该流程结合了无监督聚类与有监督分类方法,并针对多种文档表示形式进行分析:原始摘要、提取的三元组以及融合二者的混合形式。通过使用过滤后的arXiv语料库,我们从摘要中提取关系三元组,构建了四种文本表示形式,并采用四种前沿的Transformer模型进行嵌入:MiniLM、MPNet、SciBERT和SPECTER。我们使用KMeans、GMM和HDBSCAN对生成的嵌入进行无监督聚类评估,并通过微调分类模型进行arXiv学科类别预测。实验结果表明,完整摘要文本能产生最连贯的聚类簇,但融合三元组的混合表示形式能持续提升分类性能,最高达到92.6%的准确率与0.925的宏平均F1值。我们还发现,在聚类任务中,轻量级句子编码器(MiniLM、MPNet)优于领域专用模型(SciBERT、SPECTER),而在结构化输入分类任务中SciBERT表现最佳。这些发现凸显了非结构化文本与结构化知识结合的互补优势,为科学文献语义组织的知识注入表示方法提供了新的见解。

0
下载
关闭预览

相关内容

基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
【资源】元学习论文分类列表推荐
专知
19+阅读 · 2019年12月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关VIP内容
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员