BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts - 专知论文

会员服务 ·

0

约束 · 概率 · 概率约束 · 对抗 · 基线 ·

2025 年 12 月 31 日

BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts

翻译：BEDA：将信念估计作为执行策略性对话行为的概率约束

Hengli Li,Zhaoxin Yu,Qi Shen,Chenxi Li,Mengmeng Wang,Tinglang Wu,Yipeng Kang,Yuxuan Wang,Song-Chun Zhu,Zixia Jia,Zilong Zheng

from arxiv, Accepted by AAMAS 2026

Strategic dialogue requires agents to execute distinct dialogue acts, for which belief estimation is essential. While prior work often estimates beliefs accurately, it lacks a principled mechanism to use those beliefs during generation. We bridge this gap by first formalizing two core acts Adversarial and Alignment, and by operationalizing them via probabilistic constraints on what an agent may generate. We instantiate this idea in BEDA, a framework that consists of the world set, the belief estimator for belief estimation, and the conditional generator that selects acts and realizes utterances consistent with the inferred beliefs. Across three settings, Conditional Keeper Burglar (CKBG, adversarial), Mutual Friends (MF, cooperative), and CaSiNo (negotiation), BEDA consistently outperforms strong baselines: on CKBG it improves success rate by at least 5.0 points across backbones and by 20.6 points with GPT-4.1-nano; on Mutual Friends it achieves an average improvement of 9.3 points; and on CaSiNo it achieves the optimal deal relative to all baselines. These results indicate that casting belief estimation as constraints provides a simple, general mechanism for reliable strategic dialogue.

翻译：策略性对话要求智能体执行不同的对话行为，信念估计对此至关重要。虽然先前的研究通常能准确估计信念，但缺乏在生成过程中利用这些信念的机制。我们通过以下方式弥补这一空白：首先形式化两种核心行为——对抗与对齐，并通过智能体生成内容的概率约束将其操作化。我们在BEDA框架中实现了这一思想，该框架包含世界集合、用于信念估计的信念估计器，以及根据推断信念选择行为并生成一致话语的条件生成器。在条件守护者-盗贼（CKBG，对抗性）、共同好友（MF，合作性）和CaSiNo（协商性）三种设定中，BEDA始终优于强基线模型：在CKBG任务中，其在各骨干模型上成功率至少提升5.0个百分点，使用GPT-4.1-nano时提升20.6个百分点；在共同好友任务中平均提升9.3个百分点；在CaSiNo任务中达成了相对于所有基线的最优协议。这些结果表明，将信念估计转化为约束条件为可靠的策略性对话提供了一种简单通用的机制。

0

相关内容

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

专知会员服务

36+阅读 · 2025年7月28日

《人工智能辅助决策中信任的时间演化》225页

《人工智能辅助决策中信任的时间演化》225页

专知会员服务

25+阅读 · 2025年5月12日

因果决策综述

因果决策综述

专知会员服务

51+阅读 · 2025年3月1日

《基于信念的决策建模计算框架》141页

《基于信念的决策建模计算框架》141页

专知会员服务

71+阅读 · 2024年4月27日

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

专知会员服务

34+阅读 · 2024年1月18日

《OODA 和 CECA：决策框架分析》

《OODA 和 CECA：决策框架分析》

专知会员服务

116+阅读 · 2023年11月8日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

31+阅读 · 2022年6月16日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

情绪影响人际信任的效应与机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

基于训练效果的部队作战效能评估及作战计划制订方法研究

国家自然科学基金

97+阅读 · 2009年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

Explanations are a Means to an End: Decision Theoretic Explanation Evaluation

Arxiv

0+阅读 · 2月4日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue Systems

Arxiv

0+阅读 · 1月30日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月28日

BASIL: Bayesian Assessment of Sycophancy in LLMs

Arxiv

0+阅读 · 1月27日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月27日

Collaborative Belief Reasoning with LLMs for Efficient Multi-Agent Collaboration

Arxiv

0+阅读 · 1月24日

GameTalk: Training LLMs for Strategic Conversation

Arxiv

0+阅读 · 1月22日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

7+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

3+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

7+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

专知会员服务

36+阅读 · 2025年7月28日

《人工智能辅助决策中信任的时间演化》225页

《人工智能辅助决策中信任的时间演化》225页

专知会员服务

25+阅读 · 2025年5月12日

因果决策综述

因果决策综述

专知会员服务

51+阅读 · 2025年3月1日

《基于信念的决策建模计算框架》141页

《基于信念的决策建模计算框架》141页

专知会员服务

71+阅读 · 2024年4月27日

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

专知会员服务

34+阅读 · 2024年1月18日

《OODA 和 CECA：决策框架分析》

《OODA 和 CECA：决策框架分析》

专知会员服务

116+阅读 · 2023年11月8日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

《因果ABM：基于智能体的建模以学习可靠因果模型》2022美国南佛罗里达大学等26页论文

专知会员服务

47+阅读 · 2023年1月5日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

31+阅读 · 2022年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

相关论文

Explanations are a Means to an End: Decision Theoretic Explanation Evaluation

Arxiv

0+阅读 · 2月4日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue Systems

Arxiv

0+阅读 · 1月30日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月28日

BASIL: Bayesian Assessment of Sycophancy in LLMs

Arxiv

0+阅读 · 1月27日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月27日

Collaborative Belief Reasoning with LLMs for Efficient Multi-Agent Collaboration

Arxiv

0+阅读 · 1月24日

GameTalk: Training LLMs for Strategic Conversation

Arxiv

0+阅读 · 1月22日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models

Arxiv

0+阅读 · 1月15日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

情绪影响人际信任的效应与机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

基于训练效果的部队作战效能评估及作战计划制订方法研究

国家自然科学基金

97+阅读 · 2009年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员