Ontologies and taxonomies of research fields are critical for managing and organising scientific knowledge, as they facilitate efficient classification, dissemination and retrieval of information. However, the creation and maintenance of such ontologies are expensive and time-consuming tasks, usually requiring the coordinated effort of multiple domain experts. Consequently, ontologies in this space often exhibit uneven coverage across different disciplines, limited inter-discipline connectivity, and infrequent updating cycles. In this study, we investigate the capability of several large language models to identify semantic relationships among research topics within three academic disciplines: biomedicine, physics, and engineering. The models were evaluated under three distinct conditions: zero-shot prompting, chain-of-thought prompting, and fine-tuning on existing ontologies. Additionally, we assessed the cross-discipline transferability of fine-tuned models by measuring their performance when trained in one discipline and subsequently applied to a different one. To support this analysis, we introduce PEM-Rel-8K, a novel dataset consisting of over 8,000 relationships extracted from the most widely adopted taxonomies in the three disciplines considered in this study: MeSH, PhySH, and IEEE. Our experiments demonstrate that fine-tuning LLMs on PEM-Rel-8K yields excellent performance across all disciplines.


翻译:本体与分类体系对于管理和组织科学知识至关重要,因为它们能够促进信息的有效分类、传播和检索。然而,创建和维护此类本体是一项昂贵且耗时的任务,通常需要多位领域专家的协同努力。因此,这一领域的本体往往存在不同学科覆盖不均、学科间关联有限以及更新周期长的问题。在本研究中,我们探究了多种大型语言模型在三个学术领域(生物医学、物理学和工程学)中识别研究主题间语义关系的能力。这些模型在三种不同条件下进行了评估:零样本提示、思维链提示以及基于现有本体的微调。此外,我们通过测量微调模型在一个学科上训练后应用于另一学科的性能,评估了其跨学科迁移能力。为支持这一分析,我们引入了PEM-Rel-8K——一个包含超过8000个关系的新数据集,这些关系来源于本研究涉及的三个学科中最广泛采用的分类体系:MeSH、PhySH和IEEE。实验表明,在PEM-Rel-8K上对LLMs进行微调可在所有学科中取得优异性能。

0
下载
关闭预览

相关内容

大型语言模型赋能科研创意生成:创造力导向的研究综述
专知会员服务
19+阅读 · 2025年11月13日
【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
【牛津大学博士论文】用于本体工程的语言模型
专知会员服务
37+阅读 · 2024年10月24日
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
文本分类算法及其应用场景研究综述
专知会员服务
30+阅读 · 2024年6月18日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
【资源】知识图谱本体构建论文合集
专知
62+阅读 · 2019年10月9日
本体:一文读懂领域本体构建
AINLP
40+阅读 · 2019年2月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
VIP会员
最新内容
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 22分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员