Modern chess language models are dense transformers trained on millions of games played by thousands of high-rated individuals. However, these monolithic networks tend to collapse into mode-averaged behavior, where stylistic boundaries are blurred, and rare but effective strategies are suppressed. To counteract homogenization, we introduce Mixture-of-Masters (MoM), the first chess mixture-of-experts model with small-sized GPT experts emulating world-class grandmasters. Each expert is trained with a combination of self-supervised learning and reinforcement learning guided by chess-specific rewards. For each move, a post-hoc learnable gating network selects the most appropriate persona to channel depending on the game state, allowing MoM to switch its style dynamically$--$e.g., Tal's offensive vocation or Petrosian's defensive solidity. When evaluated against Stockfish on unseen standard games, MoM outperforms both dense individual expert networks and popular GPT baselines trained on aggregated data, while ensuring generation variety, control, and interpretability.


翻译:现代国际象棋语言模型是基于数千名高评级棋手对弈的数百万局棋谱训练的密集Transformer模型。然而,这些单一网络往往坍缩为模式平均行为,导致风格边界模糊,且罕见但有效的策略受到抑制。为对抗同质化,我们提出了大师混合模型,这是首个采用模拟世界级特级大师的小型GPT专家模块的国际象棋专家混合模型。每个专家模块通过结合自监督学习和由国际象棋特定奖励引导的强化学习进行训练。对于每一步棋,一个事后可学习的门控网络会根据棋局状态选择最合适的人格进行引导,使得大师混合模型能够动态切换其风格——例如塔尔式的进攻倾向或彼得罗相式的防守稳固性。在与Stockfish在未见过的标准棋局上进行评估时,大师混合模型的表现优于基于聚合数据训练的密集独立专家网络和流行的GPT基线模型,同时确保了生成多样性、可控性和可解释性。

0
下载
关闭预览

相关内容

《推演一局?面向开放式兵棋推演的语言模型》
专知会员服务
24+阅读 · 2025年11月24日
混合专家模型简述
专知会员服务
17+阅读 · 2025年5月30日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
《兵棋推演与大型语言模型: 方法、应用和稳健性》
专知会员服务
35+阅读 · 2024年7月19日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大语言模型的前世、今生与未来
专知会员服务
110+阅读 · 2023年9月8日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
相关VIP内容
《推演一局?面向开放式兵棋推演的语言模型》
专知会员服务
24+阅读 · 2025年11月24日
混合专家模型简述
专知会员服务
17+阅读 · 2025年5月30日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
混合专家模型在大模型微调领域进展
专知会员服务
48+阅读 · 2024年9月23日
《兵棋推演与大型语言模型: 方法、应用和稳健性》
专知会员服务
35+阅读 · 2024年7月19日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大语言模型的前世、今生与未来
专知会员服务
110+阅读 · 2023年9月8日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员