We introduce A.X K1, a 519B-parameter Mixture-of-Experts (MoE) language model trained from scratch. Our design leverages scaling laws to optimize training configurations and vocabulary size under fixed computational budgets. A.X K1 is pre-trained on a corpus of approximately 10T tokens, curated by a multi-stage data processing pipeline. Designed to bridge the gap between reasoning capability and inference efficiency, A.X K1 supports explicitly controllable reasoning to facilitate scalable deployment across diverse real-world scenarios. We propose a simple yet effective Think-Fusion training recipe, enabling user-controlled switching between thinking and non-thinking modes within a single unified model. Extensive evaluations demonstrate that A.X K1 achieves performance competitive with leading open-source models, while establishing a distinctive advantage in Korean-language benchmarks.


翻译:我们介绍 A.X K1,一个从头开始训练的 5190 亿参数专家混合(MoE)语言模型。我们的设计利用缩放定律,在固定的计算预算下优化训练配置和词汇表大小。A.X K1 在一个约 10 万亿词元的语料库上进行预训练,该语料库通过一个多阶段数据处理流程筛选而成。该模型旨在弥合推理能力与推理效率之间的差距,支持显式可控的推理,以促进在不同现实场景中的可扩展部署。我们提出了一种简单而有效的 Think-Fusion 训练方法,使用户能够在单个统一模型内可控地切换思考模式与非思考模式。广泛的评估表明,A.X K1 实现了与领先开源模型相竞争的性能,同时在韩语基准测试中确立了独特的优势。

0
下载
关闭预览

相关内容

《混合专家模型推理优化技术综述》
专知会员服务
46+阅读 · 2024年12月21日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
150+阅读 · 2024年9月15日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
0+阅读 · 3月11日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 2月4日
Arxiv
18+阅读 · 2024年12月27日
VIP会员
最新内容
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
5+阅读 · 今天8:46
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
8+阅读 · 今天5:37
《多域作战面临复杂现实》
专知会员服务
6+阅读 · 今天5:35
《印度的多域作战:条令与能力发展》报告
专知会员服务
2+阅读 · 今天5:24
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
7+阅读 · 4月23日
国外海军作战管理系统与作战训练系统
专知会员服务
3+阅读 · 4月23日
相关论文
Arxiv
0+阅读 · 3月17日
Arxiv
0+阅读 · 3月11日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 2月4日
Arxiv
18+阅读 · 2024年12月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员