Arcee Trinity Large Technical Report - 专知论文

会员服务 ·

0

令牌 · 报告 · 混合 · 预训练 · 稀疏 ·

Arcee Trinity Large Technical Report

翻译：Arcee Trinity Large 技术报告

Varun Singh,Lucas Krauss,Sami Jaghouar,Matej Sirovatka,Charles Goddard,Fares Obied,Jack Min Ong,Jannik Straube, Fern,Aria Harley,Conner Stewart,Colin Kealty,Maziyar Panahi,Simon Kirsten,Anushka Deshpande,Anneketh Vij,Arthur Bresnu,Pranav Veldurthi,Raghav Ravishankar,Hardik Bishnoi,DatologyAI Team,Arcee AI Team,Prime Intellect Team,Mark McQuade,Johannes Hagemann,Lucas Atkins

We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.

翻译：本文介绍了Arcee Trinity Large的技术报告，这是一个稀疏的专家混合模型，总参数量为4000亿，每令牌激活130亿参数。此外，我们还报告了Trinity Nano和Trinity Mini模型，其中Trinity Nano总参数量为60亿，每令牌激活10亿参数；Trinity Mini总参数量为260亿，每令牌激活30亿参数。这些模型采用现代架构，包括交错局部与全局注意力、门控注意力、深度缩放三明治归一化以及用于专家混合的Sigmoid路由机制。对于Trinity Large，我们还引入了一种名为软钳位动量专家偏置更新的新型MoE负载均衡策略。我们使用Muon优化器对模型进行训练。所有三个模型在训练过程中均未出现损失尖峰。Trinity Nano和Trinity Mini在10万亿令牌上进行了预训练，Trinity Large则在17万亿令牌上进行了预训练。模型检查点可在https://huggingface.co/arcee-ai获取。

0

相关内容

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

161+阅读 · 2024年2月26日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

Sora核心技术框架DiT新版本SiT! 质量、速度、灵活性更好的扩散Transformer

Sora核心技术框架DiT新版本SiT! 质量、速度、灵活性更好的扩散Transformer

专知会员服务

40+阅读 · 2024年2月21日

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

专知会员服务

50+阅读 · 2024年2月18日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

专知会员服务

178+阅读 · 2023年3月27日

《可靠多过滤器全源导航框架的弹性监控》2022年23页论文，美国空军技术学院

《可靠多过滤器全源导航框架的弹性监控》2022年23页论文，美国空军技术学院

专知会员服务

24+阅读 · 2023年1月18日

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

专知会员服务

17+阅读 · 2022年10月22日

推荐！【系统工程顶点报告】《美国海军远征增材制造（NEAM）能力整合》142页报告：增材制造（AM）技术在美国国防部（DOD）当前和未来的使用情况

推荐！【系统工程顶点报告】《美国海军远征增材制造（NEAM）能力整合》142页报告：增材制造（AM）技术在美国国防部（DOD）当前和未来的使用情况

专知会员服务

42+阅读 · 2022年9月10日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

表面增强拉曼-光热诊疗多功能金@石墨烯复合探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

低损耗、高带宽太赫兹聚合物光子晶体光纤理论与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于微结构的干涉型微纳光纤传感机理及其液体辅助飞秒激光制备技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

窄线宽纳秒脉冲2μm波段光参量振荡放大技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高功率脉冲(10 MW)激光光纤偏振走离复合放大技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于表面等离子体共振的石英基金属填充光子晶体光纤的设计、制备及性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏数据条件下空间碎片精密轨道确定与预报的有关理论和方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

全光纤超短长度飞秒激光被动同步技术的研究

国家自然科学基金

0+阅读 · 2014年12月31日

AlGaN/GaN MIS-HEMT器件在质子辐射下的退化机理，寿命预测模型与加固技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Scalable Training of Mixture-of-Experts Models with Megatron Core

Arxiv

0+阅读 · 3月10日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

HoloBrain-0 Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

Arxiv

0+阅读 · 2月7日

A.X K1 Technical Report

Arxiv

0+阅读 · 2月6日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

HunyuanImage 3.0 Technical Report

Arxiv

0+阅读 · 2月2日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

3+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

3+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

7+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

7+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

9+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

8+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

13+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

9+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

相关VIP内容

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

161+阅读 · 2024年2月26日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

Sora核心技术框架DiT新版本SiT! 质量、速度、灵活性更好的扩散Transformer

Sora核心技术框架DiT新版本SiT! 质量、速度、灵活性更好的扩散Transformer

专知会员服务

40+阅读 · 2024年2月21日

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

专知会员服务

50+阅读 · 2024年2月18日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

美空军FAST项目《基于智能体的系统技术基础》2023最新31页技术报告

专知会员服务

178+阅读 · 2023年3月27日

《可靠多过滤器全源导航框架的弹性监控》2022年23页论文，美国空军技术学院

《可靠多过滤器全源导航框架的弹性监控》2022年23页论文，美国空军技术学院

专知会员服务

24+阅读 · 2023年1月18日

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

《高压缩分支信道极化合成孔径雷达的理论与设计》2022最新180页博士论文，美国空军技术学院

专知会员服务

17+阅读 · 2022年10月22日

推荐！【系统工程顶点报告】《美国海军远征增材制造（NEAM）能力整合》142页报告：增材制造（AM）技术在美国国防部（DOD）当前和未来的使用情况

推荐！【系统工程顶点报告】《美国海军远征增材制造（NEAM）能力整合》142页报告：增材制造（AM）技术在美国国防部（DOD）当前和未来的使用情况

专知会员服务

42+阅读 · 2022年9月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

Scalable Training of Mixture-of-Experts Models with Megatron Core

Arxiv

0+阅读 · 3月10日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

HoloBrain-0 Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

Arxiv

0+阅读 · 2月7日

A.X K1 Technical Report

Arxiv

0+阅读 · 2月6日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

HunyuanImage 3.0 Technical Report

Arxiv

0+阅读 · 2月2日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

相关基金

表面增强拉曼-光热诊疗多功能金@石墨烯复合探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

低损耗、高带宽太赫兹聚合物光子晶体光纤理论与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于微结构的干涉型微纳光纤传感机理及其液体辅助飞秒激光制备技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

窄线宽纳秒脉冲2μm波段光参量振荡放大技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高功率脉冲(10 MW)激光光纤偏振走离复合放大技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于表面等离子体共振的石英基金属填充光子晶体光纤的设计、制备及性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏数据条件下空间碎片精密轨道确定与预报的有关理论和方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

全光纤超短长度飞秒激光被动同步技术的研究

国家自然科学基金

0+阅读 · 2014年12月31日

AlGaN/GaN MIS-HEMT器件在质子辐射下的退化机理，寿命预测模型与加固技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员