A.X K1 Technical Report - 专知论文

会员服务 ·

0

报告 · 混合 · 缩放 · 多阶 · 包含 ·

A.X K1 Technical Report

翻译：A.X K1 技术报告

Sung Jun Cheon,Jaekyung Cho,Seongho Choi,Hyunjun Eun,Seokhwan Jo,Jaehyun Jun,Minsoo Kang,Jin Kim,Jiwon Kim,Minsang Kim,Sungwan Kim,Seungsik Kim,Tae Yoon Kim,Youngrang Kim,Hyeongmun Lee,Sangyeol Lee,Sungeun Lee,Youngsoon Lee,Yujin Lee,Seongmin Ok,Chanyong Park,Hyewoong Park,Junyoung Park,Hyunho Yang,Subin Yi,Soohyun Bae,Dhammiko Arya,Yongseok Choi,Sangho Choi,Dongyeon Cho,Seungmo Cho,Gyoungeun Han,Yong-jin Han,Seokyoung Hong,Hyeon Hwang,Wonbeom Jang,Minjeong Ju,Wonjin Jung,Keummin Ka,Sungil Kang,Dongnam Kim,Joonghoon Kim,Jonghwi Kim,SaeRom Kim,Sangjin Kim,Seongwon Kim,Youngjin Kim,Seojin Lee,Sunwoo Lee,Taehoon Lee,Chanwoo Park,Sohee Park,Sooyeon Park,Yohan Ra,Sereimony Sek,Seungyeon Seo,Gun Song,Sanghoon Woo,Janghan Yoon,Sungbin Yoon

We introduce A.X K1, a 519B-parameter Mixture-of-Experts (MoE) language model trained from scratch. Our design leverages scaling laws to optimize training configurations and vocabulary size under fixed computational budgets. A.X K1 is pre-trained on a corpus of approximately 10T tokens, curated by a multi-stage data processing pipeline. Designed to bridge the gap between reasoning capability and inference efficiency, A.X K1 supports explicitly controllable reasoning to facilitate scalable deployment across diverse real-world scenarios. We propose a simple yet effective Think-Fusion training recipe, enabling user-controlled switching between thinking and non-thinking modes within a single unified model. Extensive evaluations demonstrate that A.X K1 achieves performance competitive with leading open-source models, while establishing a distinctive advantage in Korean-language benchmarks.

翻译：我们介绍了 A.X K1，这是一个从头开始训练的、拥有 5190 亿参数的专家混合（MoE）语言模型。我们的设计利用缩放定律，在固定的计算预算下优化了训练配置和词汇表大小。A.X K1 在一个由多阶段数据处理流程筛选的、包含约 10 万亿词元的语料库上进行了预训练。该模型旨在弥合推理能力与推理效率之间的差距，支持显式可控的推理，以促进在不同现实场景中的可扩展部署。我们提出了一种简单而有效的 Think-Fusion 训练方案，使用户能够在单个统一模型内控制式地在“思考”与“非思考”模式之间切换。广泛的评估表明，A.X K1 实现了与领先开源模型相竞争的性能，同时在韩语基准测试中确立了独特的优势。

0

相关内容

多维度对特定行业主题进行系统性分析、概括与总结。

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

175+阅读 · 2023年12月7日

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

专知会员服务

37+阅读 · 2023年1月10日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

专知会员服务

71+阅读 · 2021年10月4日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

43+阅读 · 2023年4月13日

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

144+阅读 · 2022年11月29日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

腓骨肌萎缩症1A（CMT1A）PMP22基因启动区域的调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

复合型核-壳结构正极材料LiNixCoyMn(1-x-y)O2的设计合成与储锂性能的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

低维有限典型群与线传递2-(v,k,1)设计

国家自然科学基金

0+阅读 · 2015年12月31日

高能激光驱动的X射线成像与X射线衍射实验技术探索

国家自然科学基金

0+阅读 · 2015年12月31日

IGF1调节脆性X综合症模型小鼠神经元发育及突触可塑性异常的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

MEKK1-MKK4-JNK1信号模块与HO-1的结合位点在神经炎症中的作用和机制

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

与肿瘤相关的DNA甲基化和组蛋白修饰数据的分析与研究

国家自然科学基金

1+阅读 · 2014年12月31日

Arcee Trinity Large Technical Report

Arxiv

0+阅读 · 2月19日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Covo-Audio Technical Report

Arxiv

0+阅读 · 2月10日

ERNIE 5.0 Technical Report

Arxiv

0+阅读 · 2月4日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

Uni-Parser Technical Report

Arxiv

0+阅读 · 1月29日

LongCat-Flash-Thinking-2601 Technical Report

Arxiv

0+阅读 · 1月23日

TranslateGemma Technical Report

Arxiv

0+阅读 · 1月15日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 今天14:41

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 今天14:37

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

2+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

175+阅读 · 2023年12月7日

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

专知会员服务

37+阅读 · 2023年1月10日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

专知会员服务

71+阅读 · 2021年10月4日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

43+阅读 · 2023年4月13日

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

144+阅读 · 2022年11月29日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

相关论文

Arcee Trinity Large Technical Report

Arxiv

0+阅读 · 2月19日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Covo-Audio Technical Report

Arxiv

0+阅读 · 2月10日

ERNIE 5.0 Technical Report

Arxiv

0+阅读 · 2月4日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

Uni-Parser Technical Report

Arxiv

0+阅读 · 1月29日

LongCat-Flash-Thinking-2601 Technical Report

Arxiv

0+阅读 · 1月23日

TranslateGemma Technical Report

Arxiv

0+阅读 · 1月15日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

相关基金

腓骨肌萎缩症1A（CMT1A）PMP22基因启动区域的调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

复合型核-壳结构正极材料LiNixCoyMn(1-x-y)O2的设计合成与储锂性能的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

低维有限典型群与线传递2-(v,k,1)设计

国家自然科学基金

0+阅读 · 2015年12月31日

高能激光驱动的X射线成像与X射线衍射实验技术探索

国家自然科学基金

0+阅读 · 2015年12月31日

IGF1调节脆性X综合症模型小鼠神经元发育及突触可塑性异常的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

MEKK1-MKK4-JNK1信号模块与HO-1的结合位点在神经炎症中的作用和机制

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

与肿瘤相关的DNA甲基化和组蛋白修饰数据的分析与研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员