ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links - 专知论文

会员服务 ·

0

标注 · 细粒度 · 粒度 · 数据集 · 构建 ·

ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links

翻译：ABCD-LINK：面向跨文档细粒度链接的标注引导框架

Serwar Basch,Ilia Kuznetsov,Tom Hope,Iryna Gurevych

from arxiv, Accepted at EACL 2026

Understanding fine-grained links between documents is crucial for many applications, yet progress is limited by the lack of efficient methods for data curation. To address this limitation, we introduce a domain-agnostic framework for bootstrapping sentence-level cross-document links from scratch. Our approach (1) generates and validates semi-synthetic datasets of linked documents, (2) uses these datasets to benchmark and shortlist the best-performing linking approaches, and (3) applies the shortlisted methods in large-scale human-in-the-loop annotation of natural text pairs. We apply the framework in two distinct domains -- peer review and news -- and show that combining retrieval models with LLMs achieves a 73% human approval rate for suggested links, more than doubling the acceptance of strong retrievers alone. Our framework allows users to produce novel datasets that enable systematic study of cross-document understanding, supporting downstream tasks such as media framing analysis and peer review assessment. All code, data, and annotation protocols are released to facilitate future research.

翻译：理解文档间的细粒度链接对于众多应用至关重要，然而数据整理方法的匮乏限制了该领域的进展。为应对这一局限，我们提出了一种领域无关的框架，用于从零开始引导构建句子级别的跨文档链接。我们的方法（1）生成并验证关联文档的半合成数据集，（2）利用这些数据集对性能最佳的链接方法进行基准测试与筛选，以及（3）将筛选出的方法应用于自然文本对的大规模人机协同标注。我们在两个不同领域——同行评审与新闻——中应用该框架，结果表明：将检索模型与LLMs相结合，可使建议链接获得73%的人工认可率，较仅使用强检索器的接受率提升一倍以上。本框架使用户能够构建新颖的数据集，从而支持对跨文档理解进行系统性研究，并为媒体框架分析和同行评审评估等下游任务提供支撑。我们公开了所有代码、数据及标注协议，以促进未来研究。

0

相关内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【AAAI2021】阅读、回顾、选择：短文本实体链接的机器阅读理解框架

专知会员服务

34+阅读 · 2021年1月11日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

专知会员服务

35+阅读 · 2020年5月1日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

专知会员服务

44+阅读 · 2019年11月20日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

开放知识图谱

22+阅读 · 2019年7月24日

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CVer

10+阅读 · 2019年6月22日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知

276+阅读 · 2019年2月9日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

Network Embedding 指南

Network Embedding 指南

专知

22+阅读 · 2018年8月13日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

胶囊网络（Capsule Network）在文本分类中的探索

胶囊网络（Capsule Network）在文本分类中的探索

PaperWeekly

13+阅读 · 2018年4月5日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

Text2SQL-Flow: A Robust SQL-Aware Data Augmentation Framework for Text-to-SQL

Arxiv

0+阅读 · 2月5日

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding

Arxiv

0+阅读 · 1月26日

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Arxiv

0+阅读 · 1月20日

LinkML: An Open Data Modeling Framework

Arxiv

0+阅读 · 1月20日

TreeWriter: AI-Assisted Hierarchical Planning and Writing for Long-Form Documents

Arxiv

0+阅读 · 1月19日

Topo-RAG: Topology-aware retrieval for hybrid text-table documents

Arxiv

0+阅读 · 1月15日

Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering

Arxiv

0+阅读 · 1月14日

Semantically Orthogonal Framework for Citation Classification: Disentangling Intent and Content

Arxiv

0+阅读 · 1月8日

PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

10+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

10+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

13+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

9+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

7+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

8+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

11+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

16+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

13+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【AAAI2021】阅读、回顾、选择：短文本实体链接的机器阅读理解框架

专知会员服务

34+阅读 · 2021年1月11日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

专知会员服务

35+阅读 · 2020年5月1日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

专知会员服务

44+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

开放知识图谱

22+阅读 · 2019年7月24日

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CE-Net：用于2D医学图像分割的上下文编码器网络，已开源！

CVer

10+阅读 · 2019年6月22日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知

276+阅读 · 2019年2月9日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

Network Embedding 指南

Network Embedding 指南

专知

22+阅读 · 2018年8月13日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

胶囊网络（Capsule Network）在文本分类中的探索

胶囊网络（Capsule Network）在文本分类中的探索

PaperWeekly

13+阅读 · 2018年4月5日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

相关论文

Text2SQL-Flow: A Robust SQL-Aware Data Augmentation Framework for Text-to-SQL

Arxiv

0+阅读 · 2月5日

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding

Arxiv

0+阅读 · 1月26日

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Arxiv

0+阅读 · 1月20日

LinkML: An Open Data Modeling Framework

Arxiv

0+阅读 · 1月20日

TreeWriter: AI-Assisted Hierarchical Planning and Writing for Long-Form Documents

Arxiv

0+阅读 · 1月19日

Topo-RAG: Topology-aware retrieval for hybrid text-table documents

Arxiv

0+阅读 · 1月15日

Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering

Arxiv

0+阅读 · 1月14日

Semantically Orthogonal Framework for Citation Classification: Disentangling Intent and Content

Arxiv

0+阅读 · 1月8日

PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing

Arxiv

0+阅读 · 1月1日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员