Causal Document-Grounded Dialogue Pre-training - 专知论文

会员服务 ·

0

任务对话系统 · Continuity · Performer · 语言模型化 · 数据集 ·

2023 年 5 月 19 日

Causal Document-Grounded Dialogue Pre-training

翻译：因果文档依据对话预训练

Yingxiu Zhao,Bowen Yu,Haiyang Yu,Bowen Li,Jinyang Li,Chao Wang,Fei Huang,Yongbin Li,Nevin L. Zhang

from arxiv, Work in progress

The goal of document-grounded dialogue (DocGD) is to generate a response by grounding the evidence in a supporting document in accordance with the dialogue context. This process involves four variables that are causally connected. Recently, task-specific pre-training has greatly boosted performances on many downstream tasks. Existing DocGD methods, however, continue to rely on general pre-trained language models without a specifically tailored pre-training approach that explicitly captures the causal relationships. To tackle this issue, we are the first to present a causally-complete dataset construction strategy for building million-level DocGD pre-training corpora. To better capture causality, we further propose a causally-perturbed pre-training strategy, which introduces causal perturbations on the variables and optimizes the overall causal effect. Experiments on three benchmark datasets demonstrate that our causal pre-training achieves considerable and consistent improvements under fully-supervised, low-resource, few-shot, and zero-shot settings.

翻译：文档依据对话（DocGD）的目标是根据对话上下文，在支持性文档中定位证据并生成响应。该过程涉及四个具有因果关联的变量。近年来，特定任务的预训练极大地提升了许多下游任务的性能。然而，现有DocGD方法仍依赖通用预训练语言模型，缺乏明确捕捉因果关系的专门化预训练方法。为解决这一问题，我们首次提出一种因果完备的数据集构建策略，用于构建百万级别的DocGD预训练语料库。为更好地捕捉因果关系，我们进一步提出一种因果扰动预训练策略，通过引入变量层面的因果扰动来优化整体因果效应。在三个基准数据集上的实验表明，我们的因果预训练在全监督、低资源、少样本和零样本设置下均取得了显著且一致的性能提升。

0

相关内容

任务对话系统

任务对话系统

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

254+阅读 · 2020年4月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

基于模糊软集的不确定性推理研究

国家自然科学基金

2+阅读 · 2014年12月31日

CuFe2O4的形貌和尺寸可控合成及催化性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于非贵金属内核-PtRu合金壳层的核壳结构催化剂抗中毒性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

车轮双轴疲劳虚拟试验的胎-轮间载荷传递机理及模型

国家自然科学基金

0+阅读 · 2013年12月31日

多目标多情景下的地震灾害避难所选址优化研究

国家自然科学基金

1+阅读 · 2012年12月31日

Mg-Al-Ca-Sr镁合金热变形行为的位错机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于GH/IGF-1轴糖尿病肾病大鼠Snail 1通路及TEMT的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Cocycle动力学和拟周期薛定谔算子的谱

国家自然科学基金

0+阅读 · 2012年12月31日

HIV-1相关神经认知疾病可视化生物标记物3.0T磁共振多模态定量研究

国家自然科学基金

0+阅读 · 2011年12月31日

纳米硅水泥土固化机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

Graph Contrastive Topic Model

Arxiv

0+阅读 · 2023年7月5日

Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework

Arxiv

0+阅读 · 2023年7月4日

Unified Conversational Models with System-Initiated Transitions between Chit-Chat and Task-Oriented Dialogues

Arxiv

0+阅读 · 2023年7月4日

Exploring the In-context Learning Ability of Large Language Model for Biomedical Concept Linking

Arxiv

0+阅读 · 2023年7月3日

Token-Event-Role Structure-based Multi-Channel Document-Level Event Extraction

Arxiv

0+阅读 · 2023年6月30日

Biomedical Language Models are Robust to Sub-optimal Tokenization

Arxiv

0+阅读 · 2023年6月30日

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

Arxiv

0+阅读 · 2023年6月30日

A Survey of Deep Causal Model

Arxiv

45+阅读 · 2022年9月19日

Pre-training Methods in Information Retrieval

Arxiv

16+阅读 · 2021年11月27日

A Survey on Causal Inference

Arxiv

113+阅读 · 2020年2月5日

VIP会员

文章信息

相关主题

任务对话系统

语言模型化

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

5+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

4+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

5+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

5+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

254+阅读 · 2020年4月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

相关论文

Graph Contrastive Topic Model

Arxiv

0+阅读 · 2023年7月5日

Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework

Arxiv

0+阅读 · 2023年7月4日

Unified Conversational Models with System-Initiated Transitions between Chit-Chat and Task-Oriented Dialogues

Arxiv

0+阅读 · 2023年7月4日

Exploring the In-context Learning Ability of Large Language Model for Biomedical Concept Linking

Arxiv

0+阅读 · 2023年7月3日

Token-Event-Role Structure-based Multi-Channel Document-Level Event Extraction

Arxiv

0+阅读 · 2023年6月30日

Biomedical Language Models are Robust to Sub-optimal Tokenization

Arxiv

0+阅读 · 2023年6月30日

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

Arxiv

0+阅读 · 2023年6月30日

A Survey of Deep Causal Model

Arxiv

45+阅读 · 2022年9月19日

Pre-training Methods in Information Retrieval

Arxiv

16+阅读 · 2021年11月27日

A Survey on Causal Inference

Arxiv

113+阅读 · 2020年2月5日

相关基金

基于模糊软集的不确定性推理研究

国家自然科学基金

2+阅读 · 2014年12月31日

CuFe2O4的形貌和尺寸可控合成及催化性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于非贵金属内核-PtRu合金壳层的核壳结构催化剂抗中毒性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

车轮双轴疲劳虚拟试验的胎-轮间载荷传递机理及模型

国家自然科学基金

0+阅读 · 2013年12月31日

多目标多情景下的地震灾害避难所选址优化研究

国家自然科学基金

1+阅读 · 2012年12月31日

Mg-Al-Ca-Sr镁合金热变形行为的位错机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于GH/IGF-1轴糖尿病肾病大鼠Snail 1通路及TEMT的研究

国家自然科学基金

0+阅读 · 2012年12月31日

Cocycle动力学和拟周期薛定谔算子的谱

国家自然科学基金

0+阅读 · 2012年12月31日

HIV-1相关神经认知疾病可视化生物标记物3.0T磁共振多模态定量研究

国家自然科学基金

0+阅读 · 2011年12月31日

纳米硅水泥土固化机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员