The 20 Questions (Q20) game is a well known game which encourages deductive reasoning and creativity. In the game, the answerer first thinks of an object such as a famous person or a kind of animal. Then the questioner tries to guess the object by asking 20 questions. In a Q20 game system, the user is considered as the answerer while the system itself acts as the questioner which requires a good strategy of question selection to figure out the correct object and win the game. However, the optimal policy of question selection is hard to be derived due to the complexity and volatility of the game environment. In this paper, we propose a novel policy-based Reinforcement Learning (RL) method, which enables the questioner agent to learn the optimal policy of question selection through continuous interactions with users. To facilitate training, we also propose to use a reward network to estimate the more informative reward. Compared to previous methods, our RL method is robust to noisy answers and does not rely on the Knowledge Base of objects. Experimental results show that our RL method clearly outperforms an entropy-based engineering system and has competitive performance in a noisy-free simulation environment.


翻译:二十问(Q20)游戏是一种鼓励演绎推理与创造力的经典游戏。在该游戏中,回答者首先选定一个对象(如知名人物或某种动物),随后提问者通过提出二十个问题尝试猜中该对象。在Q20游戏系统中,用户被视为回答者,而系统自身作为提问者,需要采用有效的问题选择策略以推断正确对象并赢得游戏。然而,由于游戏环境的复杂性与多变性,问题选择的最优策略难以直接推导。本文提出一种新颖的基于策略的强化学习方法,使提问者智能体能够通过与用户的持续交互来学习最优问题选择策略。为促进训练,我们还提出使用奖励网络来估计信息量更高的奖励值。与现有方法相比,本强化学习方法对噪声答案具有鲁棒性,且无需依赖对象知识库。实验结果表明,本强化学习方法显著优于基于信息熵的工程系统,并在无噪声仿真环境中展现出具有竞争力的性能。

0
下载
关闭预览

相关内容

结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
专知会员服务
47+阅读 · 2020年8月23日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
28+阅读 · 2018年8月17日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
手把手丨用TensorFlow开发问答系统
大数据文摘
21+阅读 · 2017年11月29日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月3日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
1+阅读 · 33分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
专知会员服务
47+阅读 · 2020年8月23日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员