A.X K1 Technical Report - 专知论文

会员服务 ·

0

语料 · 语料库 · 报告 · 混合 · 混合模型 ·

A.X K1 Technical Report

翻译：A.X K1 技术报告

Sung Jun Cheon,Jaekyung Cho,Seongho Choi,Hyunjun Eun,Seokhwan Jo,Jaehyun Jun,Minsoo Kang,Jin Kim,Jiwon Kim,Minsang Kim,Sungwan Kim,Seungsik Kim,Tae Yoon Kim,Youngrang Kim,Hyeongmun Lee,Sangyeol Lee,Sungeun Lee,Youngsoon Lee,Yujin Lee,Seongmin Ok,Chanyong Park,Hyewoong Park,Junyoung Park,Hyunho Yang,Subin Yi,Soohyun Bae,Dhammiko Arya,Yongseok Choi,Sangho Choi,Dongyeon Cho,Seungmo Cho,Gyoungeun Han,Yong-jin Han,Seokyoung Hong,Hyeon Hwang,Wonbeom Jang,Minjeong Ju,Wonjin Jung,Keummin Ka,Sungil Kang,Dongnam Kim,Joonghoon Kim,Jonghwi Kim,SaeRom Kim,Sangjin Kim,Seongwon Kim,Youngjin Kim,Seojin Lee,Sunwoo Lee,Taehoon Lee,Chanwoo Park,Sohee Park,Sooyeon Park,Yohan Ra,Sereimony Sek,Seungyeon Seo,Gun Song,Sanghoon Woo,Janghan Yoon,Sungbin Yoon

from arxiv, This paper is withdrawn pending additional internal review of the methodology and analysis

We introduce A.X K1, a 519B-parameter Mixture-of-Experts (MoE) language model trained from scratch. Our design leverages scaling laws to optimize training configurations and vocabulary size under fixed computational budgets. A.X K1 is pre-trained on a corpus of approximately 10T tokens, curated by a multi-stage data processing pipeline. Designed to bridge the gap between reasoning capability and inference efficiency, A.X K1 supports explicitly controllable reasoning to facilitate scalable deployment across diverse real-world scenarios. We propose a simple yet effective Think-Fusion training recipe, enabling user-controlled switching between thinking and non-thinking modes within a single unified model. Extensive evaluations demonstrate that A.X K1 achieves performance competitive with leading open-source models, while establishing a distinctive advantage in Korean-language benchmarks.

翻译：我们介绍了 A.X K1，这是一个从头开始训练的、拥有 5190 亿参数的专家混合模型。我们的设计利用缩放定律，在固定的计算预算下优化了训练配置和词汇表大小。A.X K1 在一个约 10 万亿词元的语料库上进行预训练，该语料库由一个多阶段数据处理流程精心构建。该模型旨在弥合推理能力与推理效率之间的差距，支持显式可控的推理，以促进在不同现实场景中的可扩展部署。我们提出了一种简单而有效的 Think-Fusion 训练方法，使得用户可以在一个统一的模型内控制式地切换思考模式与非思考模式。广泛的评估表明，A.X K1 的性能与领先的开源模型相当，同时在韩语基准测试中建立了独特的优势。

0

相关内容

《2035年技术化战争》192页干货报告

《2035年技术化战争》192页干货报告

专知会员服务

55+阅读 · 2025年4月17日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

33+阅读 · 2023年5月4日

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

专知会员服务

36+阅读 · 2023年1月10日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

专知会员服务

71+阅读 · 2021年10月4日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

40+阅读 · 2023年4月13日

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

142+阅读 · 2022年11月29日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

复合型核-壳结构正极材料LiNixCoyMn(1-x-y)O2的设计合成与储锂性能的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

低维有限典型群与线传递2-(v,k,1)设计

国家自然科学基金

0+阅读 · 2015年12月31日

结合同步辐射实验和第一性原理的理论对半晶化过程中的晶体结构,电子结构和热力学性质进行研究

国家自然科学基金

0+阅读 · 2015年12月31日

高能激光驱动的X射线成像与X射线衍射实验技术探索

国家自然科学基金

0+阅读 · 2015年12月31日

IGF1调节脆性X综合症模型小鼠神经元发育及突触可塑性异常的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

MEKK1-MKK4-JNK1信号模块与HO-1的结合位点在神经炎症中的作用和机制

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

与肿瘤相关的DNA甲基化和组蛋白修饰数据的分析与研究

国家自然科学基金

1+阅读 · 2014年12月31日

GLM-OCR Technical Report

Arxiv

0+阅读 · 3月11日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

Arcee Trinity Large Technical Report

Arxiv

0+阅读 · 2月19日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

HoloBrain-0 Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Covo-Audio Technical Report

Arxiv

0+阅读 · 2月10日

EuroLLM-22B: Technical Report

Arxiv

0+阅读 · 2月5日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

《2035年技术化战争》192页干货报告

《2035年技术化战争》192页干货报告

专知会员服务

55+阅读 · 2025年4月17日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

33+阅读 · 2023年5月4日

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

专知会员服务

36+阅读 · 2023年1月10日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

专知会员服务

71+阅读 · 2021年10月4日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

40+阅读 · 2023年4月13日

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

142+阅读 · 2022年11月29日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

相关论文

GLM-OCR Technical Report

Arxiv

0+阅读 · 3月11日

xLLM Technical Report

Arxiv

0+阅读 · 3月3日

Arcee Trinity Large Technical Report

Arxiv

0+阅读 · 2月19日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

HoloBrain-0 Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Covo-Audio Technical Report

Arxiv

0+阅读 · 2月10日

EuroLLM-22B: Technical Report

Arxiv

0+阅读 · 2月5日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

相关基金

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

复合型核-壳结构正极材料LiNixCoyMn(1-x-y)O2的设计合成与储锂性能的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

低维有限典型群与线传递2-(v,k,1)设计

国家自然科学基金

0+阅读 · 2015年12月31日

结合同步辐射实验和第一性原理的理论对半晶化过程中的晶体结构,电子结构和热力学性质进行研究

国家自然科学基金

0+阅读 · 2015年12月31日

高能激光驱动的X射线成像与X射线衍射实验技术探索

国家自然科学基金

0+阅读 · 2015年12月31日

IGF1调节脆性X综合症模型小鼠神经元发育及突触可塑性异常的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

MEKK1-MKK4-JNK1信号模块与HO-1的结合位点在神经炎症中的作用和机制

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

与肿瘤相关的DNA甲基化和组蛋白修饰数据的分析与研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员