Task oriented dialog systems often rely on static exploration strategies that do not adapt to dynamic dialog contexts, leading to inefficient exploration and suboptimal performance. We propose DyBBT, a novel dialog policy learning framework that formalizes the exploration challenge through a structured cognitive state space capturing dialog progression, user uncertainty, and slot dependency. DyBBT proposes a bandit inspired meta-controller that dynamically switches between a fast intuitive inference (System 1) and a slow deliberative reasoner (System 2) based on real-time cognitive states and visitation counts. Extensive experiments on single- and multi-domain benchmarks show that DyBBT achieves state-of-the-art performance in success rate, efficiency, and generalization, with human evaluations confirming its decisions are well aligned with expert judgment. Code is available at https://github.com/carsonz/DyBBT.


翻译:面向任务的对话系统通常依赖于静态探索策略,这些策略无法适应动态对话上下文,导致探索效率低下和性能欠佳。我们提出DyBBT,一种新颖的对话策略学习框架,通过构建一个结构化认知状态空间(涵盖对话进展、用户不确定性和槽位依赖性)来形式化探索挑战。DyBBT设计了一个受多臂赌博机启发的元控制器,能够基于实时认知状态和访问计数,在快速直觉推理(系统1)与慢速审慎推理(系统2)之间动态切换。在单领域和多领域基准测试上的大量实验表明,DyBBT在成功率、效率和泛化能力方面均达到最先进水平,人工评估也证实其决策与专家判断高度一致。代码发布于https://github.com/carsonz/DyBBT。

0
下载
关闭预览

相关内容

【NeurIPS2023】跨情境课程设计的Transformer智能体
专知会员服务
27+阅读 · 2023年10月14日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员