MUDY: Multi-Granular Dynamic Candidate Contextualization for Unsupervised Keyphrase Extraction - 专知论文

会员服务 ·

0

MUDY: Multi-Granular Dynamic Candidate Contextualization for Unsupervised Keyphrase Extraction

翻译：MUDY：多粒度动态候选上下文化用于无监督关键短语抽取

Hyeongu Kang,Susik Yoon

from arxiv, Accepted to SIGIR 2026

Keyphrase extraction aims to automatically identify concise phrases that effectively represent the content of a document. While recent methods leveraging pre-trained language models (PLMs) have significantly improved the extraction of keyphrases with strong global semantic relevance, they often fall short in capturing the local contextual importance of keyphrases tied to specific subtopics dispersed in a document. In this paper, we propose a novel context-centric framework, MUDY, that effectively captures multi-granular contextual salience of candidate keyphrases. MUDY employs two complementary components: (1) a prompt-based scoring that estimates the generation likelihood of each candidate keyphrase, augmented with candidate-aware weighting to better reflect its local contextual importance, and (2) a self-attention-based scoring that utilizes multi-granular attention patterns from PLMs to assess candidate significance at both the document-wide and segment-specific levels. Evaluations on four real-world datasets demonstrate that MUDY outperforms state-of-the-art baselines in top-k accuracy at various cutoff thresholds. In-depth quantitative and qualitative analyses further highlight the efficacy of context-centric keyphrase extraction with multi-granular saliency. For reproducibility, the source code of MUDY is available at https://github.com/HgKang1/MUDY.

翻译：关键短语抽取旨在自动识别能够有效代表文档内容的简洁短语。尽管近期基于预训练语言模型的方法显著提升了对具有强全局语义关联性的关键短语的抽取效果，但这些方法往往难以捕捉与文档中分散的特定子主题相关的关键短语的局部上下文重要性。本文提出了一种新颖的上下文中心框架MUDY，该框架能有效捕获候选关键短语的多粒度上下文显著性。MUDY采用两种互补组件：（1）基于提示的评分机制，估计每个候选关键短语的生成似然，并通过候选感知权重增强以更好地反映其局部上下文重要性；（2）基于自注意力的评分机制，利用预训练语言模型的多粒度注意力模式，在文档级别和段落特定级别上评估候选关键短语的显著性。在四个真实世界数据集上的评估表明，MUDY在不同截断阈值下的top-k准确率均优于现有最先进基线方法。深入的定量与定性分析进一步凸显了基于多粒度显著性的上下文中心关键短语抽取的有效性。为保障可复现性，MUDY的源代码已公开于https://github.com/HgKang1/MUDY。

0

相关内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【阿姆斯特丹博士论文】超越边界：迈向可泛化的信息抽取框架，126页pdf

【阿姆斯特丹博士论文】超越边界：迈向可泛化的信息抽取框架，126页pdf

专知会员服务

24+阅读 · 2024年12月12日

基于语言模型增强的中文关系抽取方法

基于语言模型增强的中文关系抽取方法

专知会员服务

57+阅读 · 2023年9月18日

如何提取关键词？ECIR2022最新《关键词提取》教程，

如何提取关键词？ECIR2022最新《关键词提取》教程，

专知会员服务

30+阅读 · 2022年4月11日

【KDD2021】UCPhrase:无监督上下文感知质量短语标注

专知会员服务

31+阅读 · 2021年6月4日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

专知会员服务

86+阅读 · 2019年11月12日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【关系抽取】从文本中进行关系抽取的几种不同的方法

【关系抽取】从文本中进行关系抽取的几种不同的方法

深度学习自然语言处理

29+阅读 · 2020年3月30日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

技术动态 | 跨句多元关系抽取

技术动态 | 跨句多元关系抽取

开放知识图谱

50+阅读 · 2019年10月24日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Arxiv

0+阅读 · 4月28日

A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents

Arxiv

0+阅读 · 4月23日

Enhancing Unsupervised Keyword Extraction in Academic Papers through Integrating Highlights with Abstract

Arxiv

0+阅读 · 4月21日

GroupRank: A Groupwise Paradigm for Effective and Efficient Passage Reranking with LLMs

Arxiv

0+阅读 · 4月13日

DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection

Arxiv

0+阅读 · 3月24日

WISTERIA: Weak Implicit Signal-based Temporal Relation Extraction with Attention

Arxiv

0+阅读 · 3月24日

Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors

Arxiv

0+阅读 · 3月11日

Enhancing Event Extraction from Short Stories through Contextualized Prompts

Arxiv

0+阅读 · 2月26日

DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs

Arxiv

0+阅读 · 2月25日

RDBLearn: Simple In-Context Prediction Over Relational Databases

Arxiv

0+阅读 · 2月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【阿姆斯特丹博士论文】超越边界：迈向可泛化的信息抽取框架，126页pdf

【阿姆斯特丹博士论文】超越边界：迈向可泛化的信息抽取框架，126页pdf

专知会员服务

24+阅读 · 2024年12月12日

基于语言模型增强的中文关系抽取方法

基于语言模型增强的中文关系抽取方法

专知会员服务

57+阅读 · 2023年9月18日

如何提取关键词？ECIR2022最新《关键词提取》教程，

如何提取关键词？ECIR2022最新《关键词提取》教程，

专知会员服务

30+阅读 · 2022年4月11日

【KDD2021】UCPhrase:无监督上下文感知质量短语标注

专知会员服务

31+阅读 · 2021年6月4日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

【牛津大学-DeepMind 】上下文嵌入综述，A Survey on Contextual Embeddings

专知会员服务

42+阅读 · 2020年3月17日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

专知会员服务

86+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【关系抽取】从文本中进行关系抽取的几种不同的方法

【关系抽取】从文本中进行关系抽取的几种不同的方法

深度学习自然语言处理

29+阅读 · 2020年3月30日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

技术动态 | 跨句多元关系抽取

技术动态 | 跨句多元关系抽取

开放知识图谱

50+阅读 · 2019年10月24日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

相关论文

MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Arxiv

0+阅读 · 4月28日

A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents

Arxiv

0+阅读 · 4月23日

Enhancing Unsupervised Keyword Extraction in Academic Papers through Integrating Highlights with Abstract

Arxiv

0+阅读 · 4月21日

GroupRank: A Groupwise Paradigm for Effective and Efficient Passage Reranking with LLMs

Arxiv

0+阅读 · 4月13日

DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection

Arxiv

0+阅读 · 3月24日

WISTERIA: Weak Implicit Signal-based Temporal Relation Extraction with Attention

Arxiv

0+阅读 · 3月24日

Autoencoding-Free Context Compression for LLMs via Contextual Semantic Anchors

Arxiv

0+阅读 · 3月11日

Enhancing Event Extraction from Short Stories through Contextualized Prompts

Arxiv

0+阅读 · 2月26日

DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs

Arxiv

0+阅读 · 2月25日

RDBLearn: Simple In-Context Prediction Over Relational Databases

Arxiv

0+阅读 · 2月14日

相关基金

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

短文本情感分析关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员