The relentless expansion of scientific literature presents significant challenges for navigation and knowledge discovery. Within Research Information Retrieval, established tasks such as text summarization and classification remain crucial for enabling researchers and practitioners to effectively navigate this vast landscape, so that efforts have increasingly been focused on developing advanced research information systems. These systems aim not only to provide standard keyword-based search functionalities but also to incorporate capabilities for automatic content categorization within knowledge-intensive organizations across academia and industry. This study systematically evaluates the performance of off-the-shelf Large Language Models (LLMs) in analyzing scientific texts according to a given classification scheme. We utilized the hierarchical ORKG taxonomy as a classification framework, employing the FORC dataset as ground truth. We investigated the effectiveness of advanced prompt engineering strategies, namely In-Context Learning (ICL) and Prompt Chaining, and experimentally explored the influence of the LLMs' temperature hyperparameter on classification accuracy. Our experiments demonstrate that Prompt Chaining yields superior classification accuracy compared to pure ICL, particularly when applied to the nested structure of the ORKG taxonomy. LLMs with prompt chaining outperform the state-of-the-art models for domain (1st level) prediction and show even better performance for subject (2nd level) prediction compared to the older BERT model. However, LLMs are not yet able to perform well in classifying the topic (3rd level) of research areas based on this specific hierarchical taxonomy, as they only reach about 50% accuracy even with prompt chaining.


翻译:科学文献的持续激增给导航和知识发现带来了巨大挑战。在研究信息检索领域,文本摘要和分类等成熟任务对于帮助研究人员和实践者有效浏览这一庞大领域仍至关重要,因此相关研究日益聚焦于开发先进的研究信息系统。这些系统不仅旨在提供基于关键词的标准搜索功能,还致力于在学术界和工业界的知识密集型组织中融入自动内容分类能力。本研究系统评估了现成大语言模型(LLMs)根据给定分类方案分析科学文本的性能。我们以层次化ORKG分类法作为分类框架,采用FORC数据集作为基准真值。我们探究了高级提示工程策略(即上下文学习(ICL)和提示链)的有效性,并通过实验分析了LLMs的温度超参数对分类准确率的影响。实验表明,与纯ICL相比,提示链在分类准确率上具有显著优势,尤其是在处理ORKG分类法的嵌套结构时。采用提示链的LLMs在领域(第一层级)预测中超越了现有最优模型,在学科(第二层级)预测中的表现甚至优于较旧的BERT模型。然而,基于该特定层次分类法,LLMs在研究领域主题(第三层级)分类方面仍表现欠佳——即便使用提示链,其准确率也仅达约50%。

0
下载
关闭预览

相关内容

文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
文本分类算法及其应用场景研究综述
专知会员服务
30+阅读 · 2024年6月18日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
自动文本摘要研究综述
专知会员服务
68+阅读 · 2021年1月31日
专知会员服务
58+阅读 · 2020年12月6日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
188+阅读 · 2020年8月6日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2024年5月21日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员