Enhancing Unsupervised Keyword Extraction in Academic Papers through Integrating Highlights with Abstract - 专知论文

会员服务 ·

0

Enhancing Unsupervised Keyword Extraction in Academic Papers through Integrating Highlights with Abstract

翻译：利用摘要与亮点融合提升学术论文无监督关键词提取

Yi Xiang,Chengzhi Zhang

from arxiv, Scientometrics

Automatic keyword extraction from academic papers is a key area of interest in natural language processing and information retrieval. Although previous research has mainly focused on utilizing abstract and references for keyword extraction, this paper focuses on the highlights section - a summary describing the key findings and contributions, offering readers a quick overview of the research. Our observations indicate that highlights contain valuable keyword information that can effectively complement the abstract. To investigate the impact of incorporating highlights into unsupervised keyword extraction, we evaluate three input scenarios: using only the abstract, the highlights, and a combination of both. Experiments conducted with four unsupervised models on Computer Science (CS), Library and Information Science (LIS) datasets reveal that integrating the abstract with highlights significantly improves extraction performance. Furthermore, we examine the differences in keyword coverage and content between abstract and highlights, exploring how these variations influence extraction outcomes. The data and code are available at https://github.com/xiangyi-njust/Highlight-KPE.

翻译：自动从学术论文中提取关键词是自然语言处理和信息检索领域的一个关键研究方向。虽然以往研究主要利用摘要和参考文献进行关键词提取，但本文聚焦于"亮点"部分——一种描述关键发现和贡献的总结，为读者提供研究的快速概览。我们的观察表明，亮点包含有价值的关键词信息，可以有效补充摘要。为研究将亮点融入无监督关键词提取的影响，我们评估了三种输入场景：仅使用摘要、仅使用亮点以及两者结合。在计算机科学（CS）与图书情报学（LIS）数据集上使用四种无监督模型进行的实验表明，将摘要与亮点结合能显著提升提取性能。此外，我们探究了摘要与亮点在关键词覆盖范围和内容上的差异，探讨这些差异如何影响提取结果。数据和代码已开源在 https://github.com/xiangyi-njust/Highlight-KPE。

0

相关内容

关键词提取算法研究综述

关键词提取算法研究综述

专知会员服务

31+阅读 · 2024年4月28日

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

专知会员服务

52+阅读 · 2022年8月24日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

如何提取关键词？ECIR2022最新《关键词提取》教程，

如何提取关键词？ECIR2022最新《关键词提取》教程，

专知会员服务

30+阅读 · 2022年4月11日

自动文本摘要研究综述

自动文本摘要研究综述

专知会员服务

68+阅读 · 2021年1月31日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

专知会员服务

26+阅读 · 2020年5月2日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

专知会员服务

149+阅读 · 2020年4月3日

【综述】关键词生成，附10页pdf论文下载

【综述】关键词生成，附10页pdf论文下载

专知会员服务

54+阅读 · 2019年11月20日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

大数据文摘

12+阅读 · 2018年11月30日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

PaperWeekly

12+阅读 · 2017年12月14日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

微博中定向话题发现与追踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

MUDY: Multi-Granular Dynamic Candidate Contextualization for Unsupervised Keyphrase Extraction

Arxiv

0+阅读 · 5月1日

Automating Categorization of Scientific Texts with In-Context Learning and Prompt-Chaining in Large Language Models

Arxiv

0+阅读 · 4月25日

Think Before Writing: Feature-Level Multi-Objective Optimization for Generative Citation Visibility

Arxiv

0+阅读 · 4月21日

SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP

Arxiv

0+阅读 · 4月3日

AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis

Arxiv

0+阅读 · 4月3日

Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval

Arxiv

0+阅读 · 3月21日

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Arxiv

0+阅读 · 3月6日

UniFAR: A Unified Facet-Aware Retrieval Framework for Scientific Documents

Arxiv

0+阅读 · 2月27日

Enhancing Event Extraction from Short Stories through Contextualized Prompts

Arxiv

0+阅读 · 2月26日

Predicting New Research Directions in Materials Science using Large Language Models and Concept Graphs

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

关键词提取算法研究综述

关键词提取算法研究综述

专知会员服务

31+阅读 · 2024年4月28日

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

专知会员服务

52+阅读 · 2022年8月24日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

如何提取关键词？ECIR2022最新《关键词提取》教程，

如何提取关键词？ECIR2022最新《关键词提取》教程，

专知会员服务

30+阅读 · 2022年4月11日

自动文本摘要研究综述

自动文本摘要研究综述

专知会员服务

68+阅读 · 2021年1月31日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

【2020关键词提取】使用多个本地功能从单个文档中提取关键字，YAKE! Keyword extraction from single documents using multiple local features

专知会员服务

26+阅读 · 2020年5月2日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

专知会员服务

149+阅读 · 2020年4月3日

【综述】关键词生成，附10页pdf论文下载

【综述】关键词生成，附10页pdf论文下载

专知会员服务

54+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

大数据文摘

12+阅读 · 2018年11月30日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

PaperWeekly

12+阅读 · 2017年12月14日

相关论文

MUDY: Multi-Granular Dynamic Candidate Contextualization for Unsupervised Keyphrase Extraction

Arxiv

0+阅读 · 5月1日

Automating Categorization of Scientific Texts with In-Context Learning and Prompt-Chaining in Large Language Models

Arxiv

0+阅读 · 4月25日

Think Before Writing: Feature-Level Multi-Objective Optimization for Generative Citation Visibility

Arxiv

0+阅读 · 4月21日

SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP

Arxiv

0+阅读 · 4月3日

AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis

Arxiv

0+阅读 · 4月3日

Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval

Arxiv

0+阅读 · 3月21日

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Arxiv

0+阅读 · 3月6日

UniFAR: A Unified Facet-Aware Retrieval Framework for Scientific Documents

Arxiv

0+阅读 · 2月27日

Enhancing Event Extraction from Short Stories through Contextualized Prompts

Arxiv

0+阅读 · 2月26日

Predicting New Research Directions in Materials Science using Large Language Models and Concept Graphs

Arxiv

0+阅读 · 2月23日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

微博中定向话题发现与追踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员