A.X K1 Technical Report - 专知论文

会员服务 ·

0

语料 · 语料库 · 可控 · 报告 · 混合 ·

A.X K1 Technical Report

翻译：A.X K1 技术报告

Sung Jun Cheon,Jaekyung Cho,Seongho Choi,Hyunjun Eun,Seokhwan Jo,Jaehyun Jun,Minsoo Kang,Jin Kim,Jiwon Kim,Minsang Kim,Seungsik Kim,Sungwan Kim,Tae Yoon Kim,Youngrang Kim,Hyeongmun Lee,Sangyeol Lee,Sungeun Lee,Youngsoon Lee,Yujin Lee,Seongmin Ok,Chanyong Park,Hyewoong Park,Junyoung Park,Hyunho Yang,Subin Yi,Dhammiko Arya,Soohyun Bae,Dongyeon Cho,Seungmo Cho,Sangho Choi,Yongseok Choi,Gyoungeun Han,Yong-jin Han,Seokyoung Hong,Hyeon Hwang,Wonbeom Jang,Minjeong Ju,Wonjin Jung,Keummin Ka,Sungil Kang,Dongnam Kim,Jonghwi Kim,Joonghoon Kim,SaeRom Kim,Sangjin Kim,Seongwon Kim,Youngjin Kim,Seojin Lee,Sunwoo Lee,Taehoon Lee,Chanwoo Park,Sohee Park,Sooyeon Park,Yohan Ra,Sereimony Sek,Seungyeon Seo,Gun Song,Sanghoon Woo,Janghan Yoon,Sungbin Yoon

We introduce A.X K1, a 519B-parameter Mixture-of-Experts (MoE) language model trained from scratch. Our design leverages scaling laws to optimize training configurations and vocabulary size under fixed computational budgets. A.X K1 is pre-trained on a corpus of approximately 10T tokens, curated by a multi-stage data processing pipeline. Designed to bridge the gap between reasoning capability and inference efficiency, A.X K1 supports explicitly controllable reasoning to facilitate scalable deployment across diverse real-world scenarios. We propose a simple yet effective Think-Fusion training recipe, enabling user-controlled switching between thinking and non-thinking modes within a single unified model. Extensive evaluations demonstrate that A.X K1 achieves performance competitive with leading open-source models, while establishing a distinctive advantage in Korean-language benchmarks.

翻译：我们介绍 A.X K1，一个从头开始训练的 5190 亿参数专家混合（MoE）语言模型。我们的设计利用缩放定律，在固定的计算预算下优化训练配置和词汇表大小。A.X K1 在一个约 10 万亿词元的语料库上进行预训练，该语料库通过一个多阶段数据处理流程筛选而成。该模型旨在弥合推理能力与推理效率之间的差距，支持显式可控的推理，以促进在不同现实场景中的可扩展部署。我们提出了一种简单而有效的 Think-Fusion 训练方法，使用户能够在单个统一模型内可控地切换思考模式与非思考模式。广泛的评估表明，A.X K1 实现了与领先开源模型相竞争的性能，同时在韩语基准测试中确立了独特的优势。

0

相关内容

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

专知会员服务

36+阅读 · 2023年1月10日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

专知会员服务

71+阅读 · 2021年10月4日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

40+阅读 · 2023年4月13日

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

142+阅读 · 2022年11月29日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

腓骨肌萎缩症1A（CMT1A）PMP22基因启动区域的调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

复合型核-壳结构正极材料LiNixCoyMn(1-x-y)O2的设计合成与储锂性能的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

低维有限典型群与线传递2-(v,k,1)设计

国家自然科学基金

0+阅读 · 2015年12月31日

高能激光驱动的X射线成像与X射线衍射实验技术探索

国家自然科学基金

0+阅读 · 2015年12月31日

IGF1调节脆性X综合症模型小鼠神经元发育及突触可塑性异常的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

MEKK1-MKK4-JNK1信号模块与HO-1的结合位点在神经炎症中的作用和机制

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

与肿瘤相关的DNA甲基化和组蛋白修饰数据的分析与研究

国家自然科学基金

1+阅读 · 2014年12月31日

IQuest-Coder-V1 Technical Report

Arxiv

0+阅读 · 3月17日

GLM-OCR Technical Report

Arxiv

0+阅读 · 3月11日

Arcee Trinity Large Technical Report

Arxiv

0+阅读 · 2月19日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

HoloBrain-0 Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Covo-Audio Technical Report

Arxiv

0+阅读 · 2月10日

ERNIE 5.0 Technical Report

Arxiv

0+阅读 · 2月4日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

VIP会员

文章信息

相关主题

最新内容

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

5+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

3+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

2+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

6+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

8+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

6+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

2+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

2+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

2+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

13+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

3+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

4+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

7+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

相关VIP内容

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

【信息战】《无线电：信息技术实施研究》美陆军45页技术报告

专知会员服务

36+阅读 · 2023年1月10日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

西电发布《知识增强预训练模型》综述论文，16页pdf131篇文献

专知会员服务

71+阅读 · 2021年10月4日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

热门VIP内容

开通专知VIP会员享更多权益服务

战场之外的较量：美伊冲突中的认知战与心理博弈

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

以色列军事技术对美国军力发展的持续性赋能

俄乌战争中乌克兰防空能力演变与见解（中文版）

相关资讯

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

40+阅读 · 2023年4月13日

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

142+阅读 · 2022年11月29日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

推荐！《军事训练中的 AI 增强沉浸式仿真和作战方案（COA）分析》北约2022最新186页技术报告！

专知

25+阅读 · 2022年10月3日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

相关论文

IQuest-Coder-V1 Technical Report

Arxiv

0+阅读 · 3月17日

GLM-OCR Technical Report

Arxiv

0+阅读 · 3月11日

Arcee Trinity Large Technical Report

Arxiv

0+阅读 · 2月19日

Kelix Technical Report

Arxiv

0+阅读 · 2月12日

HoloBrain-0 Technical Report

Arxiv

0+阅读 · 2月12日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Covo-Audio Technical Report

Arxiv

0+阅读 · 2月10日

ERNIE 5.0 Technical Report

Arxiv

0+阅读 · 2月4日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

相关基金

腓骨肌萎缩症1A（CMT1A）PMP22基因启动区域的调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

复合型核-壳结构正极材料LiNixCoyMn(1-x-y)O2的设计合成与储锂性能的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

低维有限典型群与线传递2-(v,k,1)设计

国家自然科学基金

0+阅读 · 2015年12月31日

高能激光驱动的X射线成像与X射线衍射实验技术探索

国家自然科学基金

0+阅读 · 2015年12月31日

IGF1调节脆性X综合症模型小鼠神经元发育及突触可塑性异常的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

MEKK1-MKK4-JNK1信号模块与HO-1的结合位点在神经炎症中的作用和机制

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

与肿瘤相关的DNA甲基化和组蛋白修饰数据的分析与研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员