Artificial intelligence has advanced significantly through the development of intelligent game-playing systems, providing rigorous testbeds for decision-making, strategic planning, and adaptive learning. However, resource-constrained environments pose critical challenges, as conventional deep learning methods heavily rely on extensive datasets and computational resources. In this paper, we propose a lightweight hybrid framework for the Game of the Amazons, which explores the paradigm of weak-to-strong generalization by integrating the structural reasoning of graph-based learning with the generative capabilities of large language models. Specifically, we leverage a Graph Attention Autoencoder to inform a multi-step Monte Carlo Tree Search, utilize a Stochastic Graph Genetic Algorithm to optimize evaluation signals, and harness GPT-4o-mini to generate synthetic training data. Unlike traditional approaches that rely on expert demonstrations, our framework learns from noisy and imperfect supervision. We demonstrate that the Graph Attention mechanism effectively functions as a structural filter, denoising the LLM's outputs. Experiments on a 10$\times$10 Amazons board show that our hybrid approach not only achieves a 15\%--56\% improvement in decision accuracy over baselines but also significantly outperforms its teacher model (GPT-4o-mini), achieving a competitive win rate of 45.0\% at N=30 nodes and a decisive 66.5\% at only N=50 nodes. These results verify the feasibility of evolving specialized, high-performance game AI from general-purpose foundation models under stringent computational constraints.


翻译:人工智能通过智能博弈系统的开发取得了显著进展,为决策制定、战略规划和自适应学习提供了严格的测试平台。然而,资源受限环境带来了严峻挑战,因为传统的深度学习方法严重依赖大量数据集和计算资源。本文针对亚马逊棋提出一种轻量级混合框架,通过将基于图学习的结构推理能力与大语言模型的生成能力相结合,探索弱到强泛化的范式。具体而言,我们利用图注意力自编码器为多步蒙特卡洛树搜索提供信息,采用随机图遗传算法优化评估信号,并借助GPT-4o-mini生成合成训练数据。与依赖专家演示的传统方法不同,我们的框架能够从含噪声的非完美监督中学习。实验证明,图注意力机制能有效充当结构滤波器,对大语言模型的输出进行去噪处理。在10×10亚马逊棋盘上的实验表明,我们的混合方法不仅比基线模型在决策准确率上提升了15%–56%,还显著超越了其教师模型(GPT-4o-mini),在N=30节点时达到45.0%的竞争性胜率,在仅N=50节点时更获得66.5%的决定性胜率。这些结果验证了在严格计算约束下,从通用基础模型演化出专业化高性能博弈人工智能的可行性。

0
下载
关闭预览

相关内容

亚马逊公司是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2015年评选的全球最大500家公司的排行榜中的第88名。 维基百科
《基于Transformer的智能体的战术决策解释》
专知会员服务
40+阅读 · 2025年12月28日
《基于大语言模型的军事不确定场景决策:模拟研究》
专知会员服务
51+阅读 · 2025年4月26日
《扩展人工智能在支持决策的数字兵棋推演中的应用》
专知会员服务
62+阅读 · 2024年5月13日
任务级兵棋智能决策技术框架设计与关键问题分析
专知会员服务
68+阅读 · 2024年5月13日
《基于大型语言模型的开放式兵棋推演》
专知会员服务
97+阅读 · 2024年4月23日
海空跨域协同兵棋AI架构设计及关键技术分析
专知会员服务
58+阅读 · 2024年4月10日
知识与数据互补的战术级兵棋行为决策框架设计与实现
专知会员服务
107+阅读 · 2023年5月30日
兵棋推演的智能决策技术与挑战
专知
28+阅读 · 2022年7月5日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《2026年美国/以色列-伊朗冲突》
专知会员服务
1+阅读 · 54分钟前
《美国与伊朗的冲突》美国会服务处报告
专知会员服务
2+阅读 · 57分钟前
美国对伊朗军事行动:弹药与反导
专知会员服务
1+阅读 · 59分钟前
超越技术:伊朗冲突中的“战争方式”
专知会员服务
11+阅读 · 4月1日
军事决策大语言模型综合评价基准
专知会员服务
8+阅读 · 4月1日
《美军混合航空器军用适航认证路线图》84页
专知会员服务
7+阅读 · 4月1日
量子无人机与未来军事战争
专知会员服务
13+阅读 · 4月1日
迈向医学人工智能科学家
专知会员服务
12+阅读 · 4月1日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员