Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections - 专知论文

会员服务 ·

0

覆盖 · 网络爬虫 · 基准 · URL · 完整性 ·

Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections

翻译：基于纵向集合交集估计网络爬虫的绝对覆盖率

Michael Paris,Grigori Paris,Fabian Baumann

Web archives preserve portions of the web, but quantifying their completeness remains challenging. Prior approaches have estimated the coverage of a crawl by either comparing the outcomes of multiple crawlers, or by comparing the results of a single crawl to external ground truth datasets. We propose a method to estimate the absolute coverage of a crawl using only the archive's own longitudinal data, i.e., the data collected by multiple subsequent crawls. Our key insight is that coverage can be estimated from the empirical URL overlaps between subsequent crawls, which are in turn well described by a simple urn process. The parameters of the urn model can then be inferred from longitudinal crawl data using linear regression. Applied to our focused crawl configuration of the German Academic Web, with 15 semi-annual crawls between 2013-2021, we find a coverage of approximately 46 percent of the crawlable URL space for the stable crawl configuration regime. Our method is extremely simple, requires no external ground truth, and generalizes to any longitudinal focused crawl.

翻译：网络档案保存了部分网络内容，但量化其完整性仍具挑战性。先前方法通过比较多个爬虫的采集结果，或将单个爬虫结果与外部基准数据集对比，来估计爬虫覆盖率。我们提出一种仅利用档案自身纵向数据（即多次连续爬取收集的数据）来估计爬虫绝对覆盖率的方法。我们的核心洞见在于：覆盖率可通过后续爬取间的经验性URL重叠度进行估计，而该重叠度可通过简单的瓮过程模型准确描述。随后可通过线性回归从纵向爬取数据中推断瓮模型的参数。将本方法应用于2013-2021年间15次半年度爬取的德国学术网络定向爬虫配置，发现在稳定爬虫配置机制下，其覆盖率约为可爬取URL空间的46%。该方法极为简洁，无需外部基准数据，并可推广至任何纵向定向爬虫场景。

0

相关内容

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

16+阅读 · 2025年6月22日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

和积网络综述论文，Sum-product networks: A survey，24页pdf

和积网络综述论文，Sum-product networks: A survey，24页pdf

专知会员服务

24+阅读 · 2020年4月3日

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

专知会员服务

92+阅读 · 2019年12月16日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

我是一个爬虫

我是一个爬虫

码农翻身

12+阅读 · 2018年6月4日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

干货 | Python 爬虫的工具列表大全

干货 | Python 爬虫的工具列表大全

机器学习算法与Python学习

11+阅读 · 2018年4月13日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

设计和实现一款轻量级的爬虫框架

设计和实现一款轻量级的爬虫框架

架构文摘

13+阅读 · 2018年1月17日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义部分线性单指标模型的高维纵向数据统计分析

国家自然科学基金

1+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

Multivariate Inference of Network Moments by Subsampling

Arxiv

0+阅读 · 4月13日

Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections

Arxiv

0+阅读 · 4月5日

Hierarchical Tensor Network Structure Search for High-Dimensional Data

Arxiv

0+阅读 · 3月29日

Contrastive Conformal Sets

Arxiv

0+阅读 · 3月27日

Measuring likelihood in cybersecurity

Arxiv

0+阅读 · 3月26日

CoverageBench: Evaluating Information Coverage across Tasks and Domains

Arxiv

0+阅读 · 3月20日

Low-Complexity and Consistent Graphon Estimation from Multiple Networks

Arxiv

0+阅读 · 3月16日

Rank4Gen: RAG-Preference-Aligned Document Set Selection and Ranking

Arxiv

0+阅读 · 3月9日

Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression

Arxiv

0+阅读 · 3月2日

Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

10+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

5+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

10+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

8+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

5+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

11+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

14+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

8+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

11+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

10+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

12+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

13+阅读 · 7月14日

相关VIP内容

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

16+阅读 · 2025年6月22日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

和积网络综述论文，Sum-product networks: A survey，24页pdf

和积网络综述论文，Sum-product networks: A survey，24页pdf

专知会员服务

24+阅读 · 2020年4月3日

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

【图机器学习论文】综述：网络表示学习（Network Representation Learning: A Survey）

专知会员服务

92+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

我是一个爬虫

我是一个爬虫

码农翻身

12+阅读 · 2018年6月4日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

干货 | Python 爬虫的工具列表大全

干货 | Python 爬虫的工具列表大全

机器学习算法与Python学习

11+阅读 · 2018年4月13日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

设计和实现一款轻量级的爬虫框架

设计和实现一款轻量级的爬虫框架

架构文摘

13+阅读 · 2018年1月17日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

相关论文

Multivariate Inference of Network Moments by Subsampling

Arxiv

0+阅读 · 4月13日

Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections

Arxiv

0+阅读 · 4月5日

Hierarchical Tensor Network Structure Search for High-Dimensional Data

Arxiv

0+阅读 · 3月29日

Contrastive Conformal Sets

Arxiv

0+阅读 · 3月27日

Measuring likelihood in cybersecurity

Arxiv

0+阅读 · 3月26日

CoverageBench: Evaluating Information Coverage across Tasks and Domains

Arxiv

0+阅读 · 3月20日

Low-Complexity and Consistent Graphon Estimation from Multiple Networks

Arxiv

0+阅读 · 3月16日

Rank4Gen: RAG-Preference-Aligned Document Set Selection and Ranking

Arxiv

0+阅读 · 3月9日

Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression

Arxiv

0+阅读 · 3月2日

Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline

Arxiv

0+阅读 · 2月27日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义部分线性单指标模型的高维纵向数据统计分析

国家自然科学基金

1+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员