Effective, Efficient, and General Information Abstraction for Imperfect-Information Extensive-Form Games - 专知论文

会员服务 ·

0

博弈 · 抽象方法 · 不完美信息 · 结构 · 计算成本 ·

Effective, Efficient, and General Information Abstraction for Imperfect-Information Extensive-Form Games

翻译：不完美信息扩展式博弈中有效、高效且通用的信息抽象方法

Boning Li,Longbo Huang

from arxiv, 17 pages, 6 figures

Information abstraction reduces the computational cost of solving imperfect-information games by clustering information sets into a smaller number of \emph{buckets}. Existing methods either rely on domain-specific features such as rank or equity, which are inapplicable to games with non-standard payoff structures, or require expensive offline neural-network training on billions of samples. We propose \textbf{Warm-up Expected Value-based Abstraction (WEVA)}, a simple yet effective alternative: run a small number of Counterfactual Regret Minimization (CFR) iterations on the full game as a \emph{warm-up} phase, extract per-hand expected value features at every decision node, form a depth-weighted multi-node feature vector, and apply $k$-means++ clustering to obtain the abstraction mapping. WEVA requires no domain knowledge, no pre-training, and incurs only a small overhead on top of the abstract-game solve. Experiments on three structurally diverse games, with different bucket numbers and CFR variants, show that WEVA consistently outperforms equity-based and rank-based abstractions, reducing exploitability by up to over $80\%$. Surprisingly, as few as $W{=}10$ warm-up iterations already produce abstractions that outperform existing information abstraction methods in most settings. These results establish WEVA as an \emph{effective, efficient, and general} approach to information abstraction in imperfect-information extensive-form games.

翻译：信息抽象通过将信息集聚类为更少的“桶”来降低解决不完美信息博弈的计算成本。现有方法要么依赖等级或权益等特定领域特征（这些特征不适用于具有非标准收益结构的博弈），要么需要对数十亿样本进行昂贵的离线神经网络训练。本文提出**基于期望值的热启动抽象（WEVA）**，一种简单而有效的替代方案：在完整博弈上运行少量反事实遗憾最小化（CFR）迭代作为“热启动”阶段，提取每个决策节点处的单手牌期望值特征，形成深度加权的多节点特征向量，并应用k-means++聚类获得抽象映射。WEVA无需领域知识、无需预训练，且仅在抽象博弈求解基础上增加少量计算开销。在三个结构不同的博弈实验（采用不同桶数量和CFR变体）中，WEVA始终优于基于权益和基于等级的抽象方法，将可剥削性降低超过80%。令人惊讶的是，仅需W=10次热启动迭代产生的抽象，在多数设置中已优于现有信息抽象方法。这些结果确立了WEVA作为不完美信息扩展式博弈中信息抽象的一种“有效、高效且通用”的方法。

0

相关内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

11+阅读 · 6月3日

计算机博弈中序贯不完美信息博弈求解研究进展

计算机博弈中序贯不完美信息博弈求解研究进展

专知会员服务

57+阅读 · 2023年11月28日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

201+阅读 · 2023年4月14日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

专知会员服务

96+阅读 · 2020年9月23日

【硬核书】不完全信息决策理论，467页pdf

【硬核书】不完全信息决策理论，467页pdf

专知会员服务

367+阅读 · 2020年6月24日

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

专知会员服务

66+阅读 · 2019年12月28日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

推荐｜北大：一种基于新闻特征抽取和循环神经网络的股票预测方法

推荐｜北大：一种基于新闻特征抽取和循环神经网络的股票预测方法

全球人工智能

14+阅读 · 2017年7月26日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

An Information Theory of Finite Abstractions and their Fundamental Scalability Limits

Arxiv

0+阅读 · 6月15日

Synthesizing Best Abstract Transformers via Parallel Bit-Vector Optimization

Arxiv

0+阅读 · 6月15日

Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal

Arxiv

0+阅读 · 6月11日

Do Not Discretize, Optimize: Almost Greedy Fictitious Play

Arxiv

0+阅读 · 6月10日

Sample-efficient inductive matrix completion with noise and inexact side-information

Arxiv

0+阅读 · 6月9日

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

Arxiv

0+阅读 · 6月1日

GAE Falls Short in Imperfect-Information Self-Play Reinforcement Learning

Arxiv

0+阅读 · 5月19日

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Arxiv

0+阅读 · 5月17日

Sample efficient inductive matrix completion with noise and inexact side information

Arxiv

0+阅读 · 5月16日

Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

不完美信息

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

11+阅读 · 6月3日

计算机博弈中序贯不完美信息博弈求解研究进展

计算机博弈中序贯不完美信息博弈求解研究进展

专知会员服务

57+阅读 · 2023年11月28日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

201+阅读 · 2023年4月14日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

专知会员服务

96+阅读 · 2020年9月23日

【硬核书】不完全信息决策理论，467页pdf

【硬核书】不完全信息决策理论，467页pdf

专知会员服务

367+阅读 · 2020年6月24日

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

专知会员服务

66+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【工大SCIR笔记】多模态信息抽取简述

【工大SCIR笔记】多模态信息抽取简述

深度学习自然语言处理

19+阅读 · 2020年4月3日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

推荐｜北大：一种基于新闻特征抽取和循环神经网络的股票预测方法

推荐｜北大：一种基于新闻特征抽取和循环神经网络的股票预测方法

全球人工智能

14+阅读 · 2017年7月26日

相关论文

An Information Theory of Finite Abstractions and their Fundamental Scalability Limits

Arxiv

0+阅读 · 6月15日

Synthesizing Best Abstract Transformers via Parallel Bit-Vector Optimization

Arxiv

0+阅读 · 6月15日

Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal

Arxiv

0+阅读 · 6月11日

Do Not Discretize, Optimize: Almost Greedy Fictitious Play

Arxiv

0+阅读 · 6月10日

Sample-efficient inductive matrix completion with noise and inexact side-information

Arxiv

0+阅读 · 6月9日

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

Arxiv

0+阅读 · 6月1日

GAE Falls Short in Imperfect-Information Self-Play Reinforcement Learning

Arxiv

0+阅读 · 5月19日

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Arxiv

0+阅读 · 5月17日

Sample efficient inductive matrix completion with noise and inexact side information

Arxiv

0+阅读 · 5月16日

Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding

Arxiv

0+阅读 · 5月11日

相关基金

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于博弈论的信息安全理论与方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员