达尔文任务导向对话：基于大语言模型的任务导向对话系统终身自演进 (DarwinTOD: LLM Driven Lifelong Self Evolution for Task Oriented Dialog Systems) - 专知论文

会员服务 ·

0

演进 · 系统 · 对话系统 · 策略优化 · 语言模型 ·

DarwinTOD: LLM Driven Lifelong Self Evolution for Task Oriented Dialog Systems

翻译：达尔文任务导向对话：基于大语言模型的任务导向对话系统终身自演进

Shuyu Zhang,Yujie Liu,Xinru Wang,Cheng Zhang,Yanmin Zhu,Bin Li

Traditional task-oriented dialog systems are unable to evolve from ongoing interactions or adapt to new domains after deployment, that is a critical limitation in real-world dynamic environments. Continual learning approaches depend on episodic retraining with human curated data, failing to achieve autonomy lifelong improvement. While evolutionary computation and LLM driven self improvement offer promising mechanisms for dialog optimization, they lack a unified framework for holistic, iterative strategy refinement. To bridge this gap, we propose DarwinTOD, a lifelong self evolving dialog framework that systematically integrates these two paradigms, enabling continuous strategy optimization from a zero-shot base without task specific fine-tuning. DarwinTOD maintains an Evolvable Strategy Bank and operates through a dual-loop process: online multi-agent dialog execution with peer critique, and offline structured evolutionary operations that refine the strategy bank using accumulated feedback. This closed-loop design enables autonomous continuous improvement without human intervention. Extensive experiments show that DarwinTOD surpasses previous state-of-the-art methods and exhibits continuous performance gains throughout evolution. Our work provides a novel framework for building dialog systems with lifelong self evolution capabilities.

翻译：传统的任务导向对话系统在部署后无法从持续交互中演进或适应新领域，这在现实动态环境中是一个关键限制。持续学习方法依赖于人工标注数据的周期性重训练，难以实现自主终身改进。尽管进化计算和大语言模型驱动的自我优化为对话优化提供了有前景的机制，但它们缺乏整体迭代策略优化的统一框架。为弥补这一空白，我们提出达尔文任务导向对话框架，这是一个终身自演进对话框架，系统整合了这两种范式，使得无需任务特定微调即可从零样本基础实现持续策略优化。该框架维护一个可进化策略库，并通过双循环流程运行：在线多智能体对话执行与同行评审，以及离线结构化进化操作——利用累积反馈优化策略库。这种闭环设计实现了无需人工干预的自主持续改进。大量实验表明，该框架超越了先前最先进方法，并在整个演进过程中展现出持续的性能提升。我们的工作为构建具有终身自演进能力的对话系统提供了创新框架。

0

相关内容

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

44+阅读 · 2025年1月16日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

《多领域任务导向对话的数据驱动策略优化》145页

《多领域任务导向对话的数据驱动策略优化》145页

专知会员服务

14+阅读 · 2024年5月10日

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

专知会员服务

56+阅读 · 2023年12月2日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

136+阅读 · 2022年11月23日

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

专知会员服务

38+阅读 · 2022年3月24日

面向任务型的对话系统研究进展

面向任务型的对话系统研究进展

专知会员服务

59+阅读 · 2021年11月17日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

对话系统近期进展

对话系统近期进展

专知

37+阅读 · 2019年3月23日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

指挥控制任务共同体的机制和模型研究

国家自然科学基金

36+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

A Modern System Recipe for Situated Embodied Human-Robot Conversation with Real-Time Multimodal LLMs and Tool-Calling

Arxiv

0+阅读 · 2月4日

SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue

Arxiv

0+阅读 · 2月3日

Bowling with ChatGPT: On the Evolving User Interactions with Conversational AI Systems

Arxiv

0+阅读 · 2月1日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue Systems

Arxiv

0+阅读 · 1月30日

Evolutionary Strategies lead to Catastrophic Forgetting in LLMs

Arxiv

0+阅读 · 1月28日

HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs

Arxiv

0+阅读 · 1月27日

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

Arxiv

0+阅读 · 1月20日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

AutoContext: Instance-Level Context Learning for LLM Agents

Arxiv

0+阅读 · 1月13日

RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction

Arxiv

0+阅读 · 1月11日

VIP会员

文章信息

相关主题

相关VIP内容

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

44+阅读 · 2025年1月16日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

《多领域任务导向对话的数据驱动策略优化》145页

《多领域任务导向对话的数据驱动策略优化》145页

专知会员服务

14+阅读 · 2024年5月10日

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

大模型如何重塑对话系统？港中文等最新《基于语言模型的对话系统演化》综述

专知会员服务

56+阅读 · 2023年12月2日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

136+阅读 · 2022年11月23日

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

【nature machine intelligence】终身学习机器的生物基础，Biological underpinnings for lifelong learning machines

专知会员服务

38+阅读 · 2022年3月24日

面向任务型的对话系统研究进展

面向任务型的对话系统研究进展

专知会员服务

59+阅读 · 2021年11月17日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

乌克兰开放真实战场数据以训练国防人工智能

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

美陆军下一代指挥控制（NGC2）原型系统借助Raft数据平台展示快速决策能力

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

对话系统近期进展

对话系统近期进展

专知

37+阅读 · 2019年3月23日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

相关论文

A Modern System Recipe for Situated Embodied Human-Robot Conversation with Real-Time Multimodal LLMs and Tool-Calling

Arxiv

0+阅读 · 2月4日

SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue

Arxiv

0+阅读 · 2月3日

Bowling with ChatGPT: On the Evolving User Interactions with Conversational AI Systems

Arxiv

0+阅读 · 2月1日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue Systems

Arxiv

0+阅读 · 1月30日

Evolutionary Strategies lead to Catastrophic Forgetting in LLMs

Arxiv

0+阅读 · 1月28日

HARMONI: Multimodal Personalization of Multi-User Human-Robot Interactions with LLMs

Arxiv

0+阅读 · 1月27日

DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution

Arxiv

0+阅读 · 1月20日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

AutoContext: Instance-Level Context Learning for LLM Agents

Arxiv

0+阅读 · 1月13日

RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction

Arxiv

0+阅读 · 1月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

指挥控制任务共同体的机制和模型研究

国家自然科学基金

36+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员