Solar Open Technical Report - 专知论文

会员服务 ·

0

词元分析器 · 语言模型 · 报告 · 混合 · 关联 ·

Solar Open Technical Report

翻译：Solar Open技术报告

Sungrae Park,Sanghoon Kim,Jungho Cho,Gyoungjin Gim,Dawoon Jung,Mikyoung Cha,Eunhae Choo,Taekgyu Hong,Minbyul Jeong,SeHwan Joo,Minsoo Khang,Eunwon Kim,Minjeong Kim,Sujeong Kim,Yunsu Kim,Hyeonju Lee,Seunghyun Lee,Sukyung Lee,Siyoung Park,Gyungin Shin,Inseo Song,Wonho Song,Seonghoon Yang,Seungyoun Yi,Sanghoon Yoon,Jeonghyun Ko,Seyoung Song,Keunwoo Choi,Hwalsuk Lee,Sunghun Kim,Du-Seong Chang,Kyunghyun Cho,Junsuk Choe,Hwaran Lee,Jae-Gil Lee,KyungTae Lim,Alice Oh

We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.

翻译：本文介绍Solar Open，一个针对资源匮乏语言开发的1020亿参数双语专家混合语言模型。Solar Open通过解决三个相互关联的挑战，展示了构建具有竞争力大语言模型的系统化方法。首先，为解决资源匮乏语言数据稀缺问题，我们合成了4.5万亿个高质量、领域特定且强化学习导向的token。其次，我们通过渐进式课程学习协调这些数据，在20万亿token范围内联合优化数据构成、质量阈值和领域覆盖。第三，为实现可扩展强化学习的推理能力，我们应用提出的SnapPO框架进行高效优化。在英语和韩语的基准测试中，Solar Open均取得具有竞争力的性能，证明了该方法对资源匮乏语言人工智能发展的有效性。

0

相关内容

词元分析器

词元分析器

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

161+阅读 · 2024年2月26日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

OpenAI Sora视频生成模型技术报告中英全文

OpenAI Sora视频生成模型技术报告中英全文

专知会员服务

115+阅读 · 2024年2月17日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

33+阅读 · 2023年5月4日

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

专知会员服务

226+阅读 · 2023年2月5日

《全球开源生态研究报告（2022年）》发布，48页pdf

《全球开源生态研究报告（2022年）》发布，48页pdf

专知会员服务

39+阅读 · 2022年9月19日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

超分辨率技术如何发展？这6篇ECCV 18论文带你一次尽览

超分辨率技术如何发展？这6篇ECCV 18论文带你一次尽览

极市平台

23+阅读 · 2018年10月15日

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

产业智能官

53+阅读 · 2018年5月17日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

射频能量收集及其与太阳能收集一体化关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

氮化镓/硅多界面纳米异质结新型太阳能电池研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于LED自适应照明优化的可见光通信网多域耦合传输技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于Polar码的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

低损耗、高带宽太赫兹聚合物光子晶体光纤理论与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

公众太阳能光伏发电的采纳机制与策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

极限性能光频域反射仪关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于全印刷技术及介孔对电极单基板全固态介观太阳能电池基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

EuroLLM-22B: Technical Report

Arxiv

0+阅读 · 2月5日

SolarGPT-QA: A Domain-Adaptive Large Language Model for Educational Question Answering in Space Weather and Heliophysics

Arxiv

0+阅读 · 2月4日

OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data

Arxiv

0+阅读 · 2月2日

A.X K1 Technical Report

Arxiv

0+阅读 · 2月2日

Yunque DeepResearch Technical Report

Arxiv

0+阅读 · 1月27日

TranslateGemma Technical Report

Arxiv

0+阅读 · 1月15日

K-EXAONE Technical Report

Arxiv

0+阅读 · 1月5日

OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment

Arxiv

0+阅读 · 1月4日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2025年12月31日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

VIP会员

文章信息

相关主题

词元分析器

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 49分钟前

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 54分钟前

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

4+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

9+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

《OpenAI o1大模型》中英文技术报告，44页pdf

《OpenAI o1大模型》中英文技术报告，44页pdf

专知会员服务

150+阅读 · 2024年9月15日

Sora技术深度解析，21页pdf

Sora技术深度解析，21页pdf

专知会员服务

161+阅读 · 2024年2月26日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

103+阅读 · 2024年2月25日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

OpenAI Sora视频生成模型技术报告中英全文

OpenAI Sora视频生成模型技术报告中英全文

专知会员服务

115+阅读 · 2024年2月17日

《TextCycleGAN 技术报告》

《TextCycleGAN 技术报告》

专知会员服务

33+阅读 · 2023年5月4日

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

专知会员服务

226+阅读 · 2023年2月5日

《全球开源生态研究报告（2022年）》发布，48页pdf

《全球开源生态研究报告（2022年）》发布，48页pdf

专知会员服务

39+阅读 · 2022年9月19日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

24+阅读 · 2022年10月24日

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

超分辨率技术如何发展？这6篇ECCV 18论文带你一次尽览

超分辨率技术如何发展？这6篇ECCV 18论文带你一次尽览

极市平台

23+阅读 · 2018年10月15日

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

产业智能官

53+阅读 · 2018年5月17日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

相关论文

EuroLLM-22B: Technical Report

Arxiv

0+阅读 · 2月5日

SolarGPT-QA: A Domain-Adaptive Large Language Model for Educational Question Answering in Space Weather and Heliophysics

Arxiv

0+阅读 · 2月4日

OpenSeal: Good, Fast, and Cheap Construction of an Open-Source Southeast Asian LLM via Parallel Data

Arxiv

0+阅读 · 2月2日

A.X K1 Technical Report

Arxiv

0+阅读 · 2月2日

Yunque DeepResearch Technical Report

Arxiv

0+阅读 · 1月27日

TranslateGemma Technical Report

Arxiv

0+阅读 · 1月15日

K-EXAONE Technical Report

Arxiv

0+阅读 · 1月5日

OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment

Arxiv

0+阅读 · 1月4日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2025年12月31日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

相关基金

射频能量收集及其与太阳能收集一体化关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

氮化镓/硅多界面纳米异质结新型太阳能电池研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于LED自适应照明优化的可见光通信网多域耦合传输技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于Polar码的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

低损耗、高带宽太赫兹聚合物光子晶体光纤理论与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

公众太阳能光伏发电的采纳机制与策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

极限性能光频域反射仪关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于全印刷技术及介孔对电极单基板全固态介观太阳能电池基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员