Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet - 专知论文

会员服务 ·

0

预训练 · 语言模型 · 互联网 · 算力 · 大语言模型 ·

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

翻译：Covenant-72B：通过互联网与不可信节点进行72B大语言模型的预训练

Joel Lidin,Amir Sarfi,Erfan Miahi,Quentin Anthony,Shivam Chauhan,Evangelos Pappas,Benjamin Thérien,Eugene Belilovsky,Samuel Dare

from arxiv, 26 pages, 6 figures, 4 tables; minor update, no content changes

Recently, there has been increased interest in globally distributed training, which has the promise to both reduce training costs and democratize participation in building large-scale foundation models. However, existing models trained in a globally distributed manner are relatively small in scale and have only been trained with whitelisted participants. Therefore, they do not yet realize the full promise of democratized participation. In this report, we describe Covenant-72B, an LLM produced by the largest collaborative globally distributed pre-training run (in terms of both compute and model scale), which simultaneously allowed open, permissionless participation supported by a live blockchain protocol. We utilized a state-of-the-art communication-efficient optimizer, SparseLoCo, supporting dynamic participation with peers joining and leaving freely. Our model, pre-trained on approximately 1.1T tokens, performs competitively with fully centralized models pre-trained on similar or higher compute budgets, demonstrating that fully democratized, non-whitelisted participation is not only feasible, but can be achieved at unprecedented scale for a globally distributed pre-training run.

翻译：近来，全球分布式训练日益受到关注，它有望同时降低训练成本并促进大规模基础模型构建的民主化参与。然而，现有以全球分布式方式训练的模型规模相对较小，且仅限白名单参与者参与训练。因此，它们尚未完全实现民主化参与的愿景。本报告介绍了Covenant-72B，这是一个通过规模最大（在算力和模型规模上）的协作式全球分布式预训练运行产生的大语言模型，该训练同时允许由实时区块链协议支持的开放、无需许可的参与。我们采用了最先进的通信高效优化器SparseLoCo，支持节点动态参与，可自由加入和退出。我们的模型在约1.1万亿词元上进行了预训练，其性能与在相似或更高算力预算下完全集中式预训练的模型相当，这表明完全民主化、非白名单参与的全球分布式预训练不仅是可行的，而且可以在前所未有的规模上实现。

0

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

专知会员服务

11+阅读 · 3月29日

《用于分布式火力支援协调训练的网络模拟系统互操作性》119页

《用于分布式火力支援协调训练的网络模拟系统互操作性》119页

专知会员服务

38+阅读 · 2024年12月12日

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

专知会员服务

19+阅读 · 2024年6月6日

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

专知会员服务

54+阅读 · 2023年12月6日

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

专知会员服务

104+阅读 · 2023年2月24日

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

专知会员服务

37+阅读 · 2022年6月5日

国内数十位NLP大佬合作，综述预训练模型的过去、现在与未来

国内数十位NLP大佬合作，综述预训练模型的过去、现在与未来

专知会员服务

33+阅读 · 2021年9月8日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

预训练模型最新综述：过去、现在和未来，43页pdf

专知会员服务

86+阅读 · 2021年6月20日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

【GitHub】BERT模型从训练到部署全流程

【GitHub】BERT模型从训练到部署全流程

专知

34+阅读 · 2019年6月28日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

TAUE: Training-free Noise Transplant and Cultivation Diffusion Model

Arxiv

0+阅读 · 3月17日

RedSage: A Cybersecurity Generalist LLM

Arxiv

0+阅读 · 3月9日

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Arxiv

0+阅读 · 3月9日

Lagom: Unleashing the Power of Communication and Computation Overlapping for Distributed LLM Training

Arxiv

0+阅读 · 2月24日

SeedFlood: A Step Toward Scalable Decentralized Training of LLMs

Arxiv

0+阅读 · 2月20日

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Arxiv

0+阅读 · 2月20日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents

Arxiv

0+阅读 · 2月3日

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

9+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

8+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

13+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

9+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

7+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

8+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

11+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

16+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

13+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

专知会员服务

11+阅读 · 3月29日

《用于分布式火力支援协调训练的网络模拟系统互操作性》119页

《用于分布式火力支援协调训练的网络模拟系统互操作性》119页

专知会员服务

38+阅读 · 2024年12月12日

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

专知会员服务

19+阅读 · 2024年6月6日

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

专知会员服务

54+阅读 · 2023年12月6日

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

多模态预训练怎么做？鹏程实验室最新《大规模多模态预训练模型》全面综述，45页pdf全面阐述其数据、网络架构等技术

专知会员服务

104+阅读 · 2023年2月24日

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

专知会员服务

37+阅读 · 2022年6月5日

国内数十位NLP大佬合作，综述预训练模型的过去、现在与未来

国内数十位NLP大佬合作，综述预训练模型的过去、现在与未来

专知会员服务

33+阅读 · 2021年9月8日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

预训练模型最新综述：过去、现在和未来，43页pdf

专知会员服务

86+阅读 · 2021年6月20日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

【GitHub】BERT模型从训练到部署全流程

【GitHub】BERT模型从训练到部署全流程

专知

34+阅读 · 2019年6月28日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

相关论文

TAUE: Training-free Noise Transplant and Cultivation Diffusion Model

Arxiv

0+阅读 · 3月17日

RedSage: A Cybersecurity Generalist LLM

Arxiv

0+阅读 · 3月9日

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Arxiv

0+阅读 · 3月9日

Lagom: Unleashing the Power of Communication and Computation Overlapping for Distributed LLM Training

Arxiv

0+阅读 · 2月24日

SeedFlood: A Step Toward Scalable Decentralized Training of LLMs

Arxiv

0+阅读 · 2月20日

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Arxiv

0+阅读 · 2月20日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents

Arxiv

0+阅读 · 2月3日

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

Arxiv

0+阅读 · 2月2日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员