Learning Page Order in Shuffled WOO Releases - 专知论文

会员服务 ·

0

序列 · 排序 · 失效 · 序列到序列 · 分析 ·

Learning Page Order in Shuffled WOO Releases

翻译：学习WOO公开文件中页面顺序的重排

Efe Kahraman,Giulio Tosato

We investigate document page ordering on 5,461 shuffled WOO documents (Dutch freedom of information releases) using page embeddings. These documents are heterogeneous collections such as emails, legal texts, and spreadsheets compiled into single PDFs, where semantic ordering signals are unreliable. We compare five methods, including pointer networks, seq2seq transformers, and specialized pairwise ranking models. The best performing approach successfully reorders documents up to 15 pages, with Kendall's tau ranging from 0.95 for short documents (2-5 pages) to 0.72 for 15 page documents. We observe two unexpected failures: seq2seq transformers fail to generalize on long documents (Kendall's tau drops from 0.918 on 2-5 pages to 0.014 on 21-25 pages), and curriculum learning underperforms direct training by 39% on long documents. Ablation studies suggest learned positional encodings are one contributing factor to seq2seq failure, though the degradation persists across all encoding variants, indicating multiple interacting causes. Attention pattern analysis reveals that short and long documents require fundamentally different ordering strategies, explaining why curriculum learning fails. Model specialization achieves substantial improvements on longer documents (+0.21 tau).

翻译：本研究利用页面嵌入技术，对5,461份经过乱序处理的WOO文件（荷兰信息公开发布文件）进行文档页面排序分析。这些文件是包含电子邮件、法律文本和电子表格等异质文档集合的单一PDF文件，其语义排序信号并不可靠。我们比较了五种方法，包括指针网络、序列到序列Transformer以及专门的成对排序模型。性能最佳的方法成功地对最多15页的文档进行了重排序，其肯德尔tau系数从短文档（2-5页）的0.95到15页文档的0.72不等。我们观察到两个意外失效现象：序列到序列Transformer在长文档上泛化能力失效（肯德尔tau系数从2-5页的0.918骤降至21-25页的0.014），且课程学习在长文档上的表现比直接训练低39%。消融研究表明，学习型位置编码是序列到序列模型失效的影响因素之一，但性能下降在所有编码变体中持续存在，表明存在多重交互因素。注意力模式分析揭示，短文档与长文档需要根本不同的排序策略，这解释了课程学习失效的原因。模型专业化在较长文档上实现了显著改进（肯德尔tau系数提升0.21）。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

专知会员服务

20+阅读 · 2024年3月7日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【干货书】引擎顺序: 算法技术机制，353页pdf

【干货书】引擎顺序: 算法技术机制，353页pdf

专知会员服务

43+阅读 · 2021年7月16日

WWW21最新「比较学习」教程，135页PPT阐述从排名数据中学习

专知会员服务

37+阅读 · 2021年4月27日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

专知会员服务

14+阅读 · 2021年3月15日

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

专知会员服务

44+阅读 · 2020年10月18日

【2020新书】预训练Transformer模型的文本排序

【2020新书】预训练Transformer模型的文本排序

专知会员服务

63+阅读 · 2020年10月18日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知会员服务

204+阅读 · 2019年11月20日

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

专知

10+阅读 · 2020年10月19日

《百面机器学习》姊妹篇《百面深度学习》来了，文末留言赠书

《百面机器学习》姊妹篇《百面深度学习》来了，文末留言赠书

AINLP

12+阅读 · 2020年7月18日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

AI研习社

14+阅读 · 2018年7月22日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

阿里巴巴：Representation Learning在优酷个性化搜索排序中的应用

阿里巴巴：Representation Learning在优酷个性化搜索排序中的应用

菜鸟的机器学习

14+阅读 · 2017年11月9日

最大化接收工件总利益的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

上下文无关文法在排列统计量研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

若干新型车间作业排序问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

订单排序模型及其最优性研究

国家自然科学基金

2+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

Rank4Gen: RAG-Preference-Aligned Document Set Selection and Ranking

Arxiv

0+阅读 · 3月9日

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank

Arxiv

0+阅读 · 3月4日

Frequency-Ordered Tokenization for Better Text Compression

Arxiv

0+阅读 · 2月26日

Where Relevance Emerges: A Layer-Wise Study of Internal Attention for Zero-Shot Re-Ranking

Arxiv

0+阅读 · 2月26日

Diagnosing LLM Reranker Behavior Under Fixed Evidence Pools

Arxiv

0+阅读 · 2月20日

DiffuRank: Effective Document Reranking with Diffusion Language Models

Arxiv

0+阅读 · 2月13日

From Noise to Order: Learning to Rank via Denoising Diffusion

Arxiv

0+阅读 · 2月12日

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

Arxiv

0+阅读 · 2月3日

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

序列到序列

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

专知会员服务

20+阅读 · 2024年3月7日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【干货书】引擎顺序: 算法技术机制，353页pdf

【干货书】引擎顺序: 算法技术机制，353页pdf

专知会员服务

43+阅读 · 2021年7月16日

WWW21最新「比较学习」教程，135页PPT阐述从排名数据中学习

专知会员服务

37+阅读 · 2021年4月27日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

【WSDM2021-教程】超越概率排序原则：建模文档依赖性，附PPT

专知会员服务

14+阅读 · 2021年3月15日

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

专知会员服务

44+阅读 · 2020年10月18日

【2020新书】预训练Transformer模型的文本排序

【2020新书】预训练Transformer模型的文本排序

专知会员服务

63+阅读 · 2020年10月18日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知会员服务

204+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

专知

10+阅读 · 2020年10月19日

《百面机器学习》姊妹篇《百面深度学习》来了，文末留言赠书

《百面机器学习》姊妹篇《百面深度学习》来了，文末留言赠书

AINLP

12+阅读 · 2020年7月18日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

AI研习社

14+阅读 · 2018年7月22日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

阿里巴巴：Representation Learning在优酷个性化搜索排序中的应用

阿里巴巴：Representation Learning在优酷个性化搜索排序中的应用

菜鸟的机器学习

14+阅读 · 2017年11月9日

相关论文

Rank4Gen: RAG-Preference-Aligned Document Set Selection and Ranking

Arxiv

0+阅读 · 3月9日

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank

Arxiv

0+阅读 · 3月4日

Frequency-Ordered Tokenization for Better Text Compression

Arxiv

0+阅读 · 2月26日

Where Relevance Emerges: A Layer-Wise Study of Internal Attention for Zero-Shot Re-Ranking

Arxiv

0+阅读 · 2月26日

Diagnosing LLM Reranker Behavior Under Fixed Evidence Pools

Arxiv

0+阅读 · 2月20日

DiffuRank: Effective Document Reranking with Diffusion Language Models

Arxiv

0+阅读 · 2月13日

From Noise to Order: Learning to Rank via Denoising Diffusion

Arxiv

0+阅读 · 2月12日

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

Arxiv

0+阅读 · 2月3日

RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval

Arxiv

0+阅读 · 2月2日

相关基金

最大化接收工件总利益的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

上下文无关文法在排列统计量研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

若干新型车间作业排序问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

订单排序模型及其最优性研究

国家自然科学基金

2+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员