DOREMI: Optimizing Long Tail Predictions in Document-Level Relation Extraction - 专知论文

会员服务 ·

0

关系抽取 · 长尾分布 · 样本 · 训练样本 · 标注 ·

DOREMI: Optimizing Long Tail Predictions in Document-Level Relation Extraction

翻译：DOREMI：优化文档级关系抽取中的长尾预测

Laura Menotti,Stefano Marchesin,Gianmaria Silvello

from arxiv, Accepted for publication in Knowledge-Based Systems

Document-Level Relation Extraction (DocRE) presents significant challenges due to its reliance on cross-sentence context and the long-tail distribution of relation types, where many relations have scarce training examples. In this work, we introduce DOcument-level Relation Extraction optiMizing the long taIl (DOREMI), an iterative framework that enhances underrepresented relations through minimal yet targeted manual annotations. Unlike previous approaches that rely on large-scale noisy data or heuristic denoising, DOREMI actively selects the most informative examples to improve training efficiency and robustness. DOREMI can be applied to any existing DocRE model and is effective at mitigating long-tail biases, offering a scalable solution to improve generalization on rare relations.

翻译：文档级关系抽取（DocRE）因其对跨句子上下文的依赖以及关系类型的长尾分布而面临重大挑战，其中许多关系仅有稀少的训练样本。本研究提出了优化长尾分布的文档级关系抽取框架（DOREMI），该迭代框架通过最小化但有针对性的手动标注来增强低代表性关系。与以往依赖大规模噪声数据或启发式去噪的方法不同，DOREMI主动选择信息量最大的样本来提升训练效率和鲁棒性。DOREMI可应用于任何现有的DocRE模型，并能有效缓解长尾偏差，为提升稀有关系的泛化能力提供可扩展的解决方案。

0

相关内容

关系抽取

关系抽取指的是检测和识别文本中实体之间的语义关系，并将表示同一语义关系的提及（mention）链接起来的任务。关系提取任务需要在一组工件（通常来自文本或XML文档）中对语义关系提及进行检测和分类。该任务与信息抽取（IE）的任务非常相似，但是IE还需要删除重复关系（消除歧义），并且通常指的是提取许多不同的关系。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

【博士论文】用于化学结构抽取的多模态文档理解

【博士论文】用于化学结构抽取的多模态文档理解

专知会员服务

9+阅读 · 2025年10月12日

PLM 与 LLM 时代的长文档检索综述

PLM 与 LLM 时代的长文档检索综述

专知会员服务

17+阅读 · 2025年9月21日

【WWW2024】LLM 中的一致性引导知识检索和去噪用于零样本文档级关系三元组抽取

【WWW2024】LLM 中的一致性引导知识检索和去噪用于零样本文档级关系三元组抽取

专知会员服务

24+阅读 · 2024年1月27日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【ACL2022】一个用于远距监督关系抽取的层级对比学习框架, HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction

【ACL2022】一个用于远距监督关系抽取的层级对比学习框架, HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction

专知会员服务

15+阅读 · 2022年3月24日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【SIGIR2020】学习词项区分性，Learning Term Discrimination

【SIGIR2020】学习词项区分性，Learning Term Discrimination

专知会员服务

16+阅读 · 2020年4月28日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

【关系抽取】从文本中进行关系抽取的几种不同的方法

【关系抽取】从文本中进行关系抽取的几种不同的方法

深度学习自然语言处理

29+阅读 · 2020年3月30日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

AINLP

15+阅读 · 2019年8月26日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

开放知识图谱

30+阅读 · 2019年7月5日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

Arxiv

0+阅读 · 2月12日

Query-focused and Memory-aware Reranker for Long Context Processing

Arxiv

0+阅读 · 2月12日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月12日

Predicting LLM Output Length via Entropy-Guided Representations

Arxiv

0+阅读 · 2月12日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月10日

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards

Arxiv

0+阅读 · 2月5日

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

Arxiv

0+阅读 · 2月2日

Optimizing Multi-Hop Document Retrieval Through Intermediate Representations

Arxiv

0+阅读 · 1月29日

DocReward: A Document Reward Model for Structuring and Stylizing

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

8+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

6+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

8+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

5+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

8+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

8+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

6+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

4+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

5+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

13+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

8+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

7+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

15+阅读 · 7月16日

相关VIP内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

【博士论文】用于化学结构抽取的多模态文档理解

【博士论文】用于化学结构抽取的多模态文档理解

专知会员服务

9+阅读 · 2025年10月12日

PLM 与 LLM 时代的长文档检索综述

PLM 与 LLM 时代的长文档检索综述

专知会员服务

17+阅读 · 2025年9月21日

【WWW2024】LLM 中的一致性引导知识检索和去噪用于零样本文档级关系三元组抽取

【WWW2024】LLM 中的一致性引导知识检索和去噪用于零样本文档级关系三元组抽取

专知会员服务

24+阅读 · 2024年1月27日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【ACL2022】一个用于远距监督关系抽取的层级对比学习框架, HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction

【ACL2022】一个用于远距监督关系抽取的层级对比学习框架, HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction

专知会员服务

15+阅读 · 2022年3月24日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【SIGIR2020】学习词项区分性，Learning Term Discrimination

【SIGIR2020】学习词项区分性，Learning Term Discrimination

专知会员服务

16+阅读 · 2020年4月28日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

【关系抽取】从文本中进行关系抽取的几种不同的方法

【关系抽取】从文本中进行关系抽取的几种不同的方法

深度学习自然语言处理

29+阅读 · 2020年3月30日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART IV）

AINLP

15+阅读 · 2019年8月26日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

开放知识图谱

30+阅读 · 2019年7月5日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

相关论文

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

Arxiv

0+阅读 · 2月12日

Query-focused and Memory-aware Reranker for Long Context Processing

Arxiv

0+阅读 · 2月12日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月12日

Predicting LLM Output Length via Entropy-Guided Representations

Arxiv

0+阅读 · 2月12日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月10日

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards

Arxiv

0+阅读 · 2月5日

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

Arxiv

0+阅读 · 2月2日

Optimizing Multi-Hop Document Retrieval Through Intermediate Representations

Arxiv

0+阅读 · 1月29日

DocReward: A Document Reward Model for Structuring and Stylizing

Arxiv

0+阅读 · 1月20日

相关基金

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排序法和分解的高维多目标演化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员