Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality - 专知论文

会员服务 ·

0

边缘 · 预训练 · 中心性 · 数据选择 · 训练数据 ·

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

翻译：标题：枢纽或边缘：基于网页图中心性的预训练数据选择

Vedant Badoni,Danqi Chen,Xinyi Wang

from arxiv, 10 pages

The performance of modern language models depends critically on pretraining data composition. Yet existing data selection methods rely on auxiliary classifiers for document scoring or mixture optimization, adding computational overhead and dependence on labeled data. We propose WebGraphMix, a lightweight data selection framework that computes structural centrality scores over the Common Crawl host-level web graph and uses them to vary the proportion of central versus peripheral documents in the pretraining mixture. We hypothesize that central hosts expose models to reusable abstractions, while peripheral hosts encode specialized, long-tail knowledge. WebGraphMix computes centrality scores efficiently at web scale, requiring no model training, labeled data, or downstream supervision. We integrate WebGraphMix into the DataComp-LM pipeline and train models at 400M and 1B parameter scales with 8B and 28B tokens respectively, evaluating on 23 tasks ranging from factual knowledge to symbolic reasoning. Our experiments show that central and peripheral web regions encode complementary capabilities. Mixture combining both at a ratio of 1:1 achieves 41.4% on average, compared to 39.8% for uniform sampling. Combining structural scores with document-level quality classifier scores further improves performance to 43.8%. These findings demonstrate that web graph topology is a meaningful axis for pretraining data curation, capturing information that is largely orthogonal to existing content-based approaches.

翻译：摘要：现代语言模型的性能关键依赖于预训练数据的构成。然而，现有数据选择方法需借助辅助分类器进行文档评分或混合优化，增加了计算开销并对标注数据产生依赖。我们提出WebGraphMix——一种轻量级数据选择框架，该框架在Common Crawl宿主级网页图上计算结构中心性分数，并基于此调节预训练混合数据中中心文档与边缘文档的比例。我们假设中心宿主为模型提供可复用的抽象表征，而边缘宿主编码专业化、长尾知识。WebGraphMix可在网络规模下高效计算中心性分数，无需模型训练、标注数据或下游监督。我们将WebGraphMix集成到DataComp-LM流程中，分别使用80亿和280亿token训练4亿参数与10亿参数规模的模型，并在23项涵盖事实知识到符号推理的任务上进行评估。实验表明，中心与边缘网络区域编码互补能力：采用1:1比例的混合数据平均性能达41.4%，优于均匀采样的39.8%。将结构分数与文档级质量分类器分数结合后，性能进一步提升至43.8%。这些发现证明网页图拓扑结构是预训练数据策展的重要维度，其捕获的信息与现有基于内容的方法基本正交。

0

相关内容

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

联邦图学习的全面数据中心化综述

联邦图学习的全面数据中心化综述

专知会员服务

23+阅读 · 2025年7月23日

WWW24 | 从数据中心化的角度校准图神经网络

WWW24 | 从数据中心化的角度校准图神经网络

专知会员服务

14+阅读 · 2024年9月14日

【KDD2024】预训练和提示在文本属性图上的少样本节点分类

【KDD2024】预训练和提示在文本属性图上的少样本节点分类

专知会员服务

14+阅读 · 2024年7月28日

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

专知会员服务

22+阅读 · 2024年1月28日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

专知会员服务

29+阅读 · 2020年5月26日

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

专知会员服务

25+阅读 · 2020年3月15日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

CNN与RNN中文文本分类-基于TensorFlow 实现

CNN与RNN中文文本分类-基于TensorFlow 实现

七月在线实验室

13+阅读 · 2018年10月30日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

Spokes: Optimizing for Diverse Pretraining Data Selection

Arxiv

0+阅读 · 6月13日

Selecting Samples on Graphs: A Unified Dataset Pruning Framework for Lossless Training Acceleration

Arxiv

0+阅读 · 6月11日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

WebKnoGraph: GNN-Powered Internal Linking

Arxiv

0+阅读 · 6月4日

Contrastive Learning and Correlation Clustering for Sequences of Network Telescope Data

Arxiv

0+阅读 · 6月3日

A Finite-Calibration Regime Map for LLM Judge Panels

Arxiv

0+阅读 · 5月31日

Adaptive Node Feature Selection For Graph Neural Networks

Arxiv

0+阅读 · 5月29日

MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection

Arxiv

0+阅读 · 5月28日

Combining pre-trained models via localized model averaging

Arxiv

0+阅读 · 5月13日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

联邦图学习的全面数据中心化综述

联邦图学习的全面数据中心化综述

专知会员服务

23+阅读 · 2025年7月23日

WWW24 | 从数据中心化的角度校准图神经网络

WWW24 | 从数据中心化的角度校准图神经网络

专知会员服务

14+阅读 · 2024年9月14日

【KDD2024】预训练和提示在文本属性图上的少样本节点分类

【KDD2024】预训练和提示在文本属性图上的少样本节点分类

专知会员服务

14+阅读 · 2024年7月28日

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

专知会员服务

22+阅读 · 2024年1月28日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

【SIGIR2020】联合项目推荐和属性推断:一种自适应图卷积网络方法，Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach

专知会员服务

29+阅读 · 2020年5月26日

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

专知会员服务

25+阅读 · 2020年3月15日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

CNN与RNN中文文本分类-基于TensorFlow 实现

CNN与RNN中文文本分类-基于TensorFlow 实现

七月在线实验室

13+阅读 · 2018年10月30日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

相关论文

Spokes: Optimizing for Diverse Pretraining Data Selection

Arxiv

0+阅读 · 6月13日

Selecting Samples on Graphs: A Unified Dataset Pruning Framework for Lossless Training Acceleration

Arxiv

0+阅读 · 6月11日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

WebKnoGraph: GNN-Powered Internal Linking

Arxiv

0+阅读 · 6月4日

Contrastive Learning and Correlation Clustering for Sequences of Network Telescope Data

Arxiv

0+阅读 · 6月3日

A Finite-Calibration Regime Map for LLM Judge Panels

Arxiv

0+阅读 · 5月31日

Adaptive Node Feature Selection For Graph Neural Networks

Arxiv

0+阅读 · 5月29日

MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection

Arxiv

0+阅读 · 5月28日

Combining pre-trained models via localized model averaging

Arxiv

0+阅读 · 5月13日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员