Recent advancements have expanded the role of Large Language Models in board games from playing agents to creative co-designers. However, a critical gap remains: current systems lack the capacity to offer constructive critique grounded in the emergent user experience. Bridging this gap is fundamental for harmonizing Human-AI collaboration, as it empowers designers to refine their creations via external perspectives while steering models away from biased or unpredictable outcomes. Automating critique for board games presents two challenges: inferring the latent dynamics connecting rules to gameplay without an explicit engine, and modeling the subjective heterogeneity of diverse player groups. To address these, we curate a dataset of 1,727 structurally corrected rulebooks and 150K reviews selected via quality scoring and facet-aware sampling. We augment this data with Mechanics-Dynamics-Aesthetics (MDA) reasoning to explicitly bridge the causal gap between written rules and player experience. We further distill player personas and introduce MeepleLM, a specialized model that internalizes persona-specific reasoning patterns to accurately simulate the subjective feedback of diverse player archetypes. Experiments demonstrate that MeepleLM significantly outperforms latest commercial models (e.g., GPT-5.1, Gemini3-Pro) in community alignment and critique quality, achieving a 70% preference rate in user studies assessing utility. MeepleLM serves as a reliable virtual playtester for general interactive systems, marking a pivotal step towards audience-aligned, experience-aware Human-AI collaboration.


翻译:近年来,大型语言模型在桌游中的角色已从游戏代理扩展至创意协同设计者。然而,当前系统仍存在一个关键缺陷:缺乏基于涌现用户体验提供建设性批评的能力。弥合这一差距对于协调人机协作至关重要,因为它使设计者能够通过外部视角完善创作,同时引导模型避免偏见或不可预测的结果。为桌游实现自动化批评面临两大挑战:一是在缺乏显式游戏引擎的情况下,推断连接规则与游戏过程的潜在动态;二是对多样化玩家群体的主观异质性进行建模。为解决这些问题,我们构建了一个包含1,727份结构校正规则书和15万条评论的数据集,这些数据通过质量评分和面向多维度的采样方法筛选获得。我们运用机制-动态-美学推理框架对该数据进行增强,以显式弥合书面规则与玩家体验之间的因果鸿沟。进一步地,我们提炼了玩家角色原型,并提出了MeepleLM——一个能够内化角色特定推理模式的专业模型,可精准模拟多样化玩家原型的个性化反馈。实验表明,MeepleLM在社区契合度与批评质量上显著优于最新的商业模型(如GPT-5.1、Gemini3-Pro),在评估实用性的用户研究中获得70%的偏好率。MeepleLM可作为通用交互系统的可靠虚拟游戏测试者,标志着向受众对齐、体验感知的人机协作迈出了关键一步。

0
下载
关闭预览

相关内容

多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员