Keyphrase extraction aims to automatically identify concise phrases that effectively represent the content of a document. While recent methods leveraging pre-trained language models (PLMs) have significantly improved the extraction of keyphrases with strong global semantic relevance, they often fall short in capturing the local contextual importance of keyphrases tied to specific subtopics dispersed in a document. In this paper, we propose a novel context-centric framework, MUDY, that effectively captures multi-granular contextual salience of candidate keyphrases. MUDY employs two complementary components: (1) a prompt-based scoring that estimates the generation likelihood of each candidate keyphrase, augmented with candidate-aware weighting to better reflect its local contextual importance, and (2) a self-attention-based scoring that utilizes multi-granular attention patterns from PLMs to assess candidate significance at both the document-wide and segment-specific levels. Evaluations on four real-world datasets demonstrate that MUDY outperforms state-of-the-art baselines in top-k accuracy at various cutoff thresholds. In-depth quantitative and qualitative analyses further highlight the efficacy of context-centric keyphrase extraction with multi-granular saliency. For reproducibility, the source code of MUDY is available at https://github.com/HgKang1/MUDY.


翻译:关键短语抽取旨在自动识别能够有效代表文档内容的简洁短语。尽管近期基于预训练语言模型的方法显著提升了对具有强全局语义关联性的关键短语的抽取效果,但这些方法往往难以捕捉与文档中分散的特定子主题相关的关键短语的局部上下文重要性。本文提出了一种新颖的上下文中心框架MUDY,该框架能有效捕获候选关键短语的多粒度上下文显著性。MUDY采用两种互补组件:(1)基于提示的评分机制,估计每个候选关键短语的生成似然,并通过候选感知权重增强以更好地反映其局部上下文重要性;(2)基于自注意力的评分机制,利用预训练语言模型的多粒度注意力模式,在文档级别和段落特定级别上评估候选关键短语的显著性。在四个真实世界数据集上的评估表明,MUDY在不同截断阈值下的top-k准确率均优于现有最先进基线方法。深入的定量与定性分析进一步凸显了基于多粒度显著性的上下文中心关键短语抽取的有效性。为保障可复现性,MUDY的源代码已公开于https://github.com/HgKang1/MUDY。

0
下载
关闭预览

相关内容

基于语言模型增强的中文关系抽取方法
专知会员服务
57+阅读 · 2023年9月18日
如何提取关键词?ECIR2022最新《关键词提取》教程,
专知会员服务
30+阅读 · 2022年4月11日
专知会员服务
31+阅读 · 2021年6月4日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
技术动态 | 跨句多元关系抽取
开放知识图谱
50+阅读 · 2019年10月24日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员