We introduce A.X K1, a 519B-parameter Mixture-of-Experts (MoE) language model trained from scratch. Our design leverages scaling laws to optimize training configurations and vocabulary size under fixed computational budgets. A.X K1 is pre-trained on a corpus of approximately 10T tokens, curated by a multi-stage data processing pipeline. Designed to bridge the gap between reasoning capability and inference efficiency, A.X K1 supports explicitly controllable reasoning to facilitate scalable deployment across diverse real-world scenarios. We propose a simple yet effective Think-Fusion training recipe, enabling user-controlled switching between thinking and non-thinking modes within a single unified model. Extensive evaluations demonstrate that A.X K1 achieves performance competitive with leading open-source models, while establishing a distinctive advantage in Korean-language benchmarks.


翻译:我们介绍了 A.X K1,这是一个从头开始训练的、拥有 5190 亿参数的专家混合模型。我们的设计利用缩放定律,在固定的计算预算下优化了训练配置和词汇表大小。A.X K1 在一个约 10 万亿词元的语料库上进行预训练,该语料库由一个多阶段数据处理流程精心构建。该模型旨在弥合推理能力与推理效率之间的差距,支持显式可控的推理,以促进在不同现实场景中的可扩展部署。我们提出了一种简单而有效的 Think-Fusion 训练方法,使得用户可以在一个统一的模型内控制式地切换思考模式与非思考模式。广泛的评估表明,A.X K1 的性能与领先的开源模型相当,同时在韩语基准测试中建立了独特的优势。

0
下载
关闭预览

相关内容

《2035年技术化战争》192页干货报告
专知会员服务
54+阅读 · 2025年4月17日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
149+阅读 · 2024年9月15日
《TextCycleGAN 技术报告》
专知会员服务
33+阅读 · 2023年5月4日
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
69+阅读 · 2022年9月13日
【2022新书】深度学习归一化技术,117页pdf
专知
29+阅读 · 2022年11月25日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月15日
Arxiv
18+阅读 · 2024年12月27日
VIP会员
相关VIP内容
《2035年技术化战争》192页干货报告
专知会员服务
54+阅读 · 2025年4月17日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
149+阅读 · 2024年9月15日
《TextCycleGAN 技术报告》
专知会员服务
33+阅读 · 2023年5月4日
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
69+阅读 · 2022年9月13日
相关论文
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月15日
Arxiv
18+阅读 · 2024年12月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员