基于大语言模型的智能体在多轮对话中的评估方法综述 (Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey) - 专知论文

会员服务 ·

0

多轮对话 · 智能体 · 系统 · 语言模型 · 大语言模型 ·

Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey

翻译：基于大语言模型的智能体在多轮对话中的评估方法综述

Shengyue Guan,Jindong Wang,Jiang Bian,Bin Zhu,Jian-guang Lou,Haoyi Xiong

This survey examines evaluation methods for large language model (LLM)-based agents in multi-turn conversational settings. Using a PRISMA-inspired framework, we systematically reviewed nearly 250 scholarly sources, capturing the state of the art from various venues of publication, and establishing a solid foundation for our analysis. Our study offers a structured approach by developing two interrelated taxonomy systems: one that defines \emph{what to evaluate} and another that explains \emph{how to evaluate}. The first taxonomy identifies key components of LLM-based agents for multi-turn conversations and their evaluation dimensions, including task completion, response quality, user experience, memory and context retention, as well as planning and tool integration. These components ensure that the performance of conversational agents is assessed in a holistic and meaningful manner. The second taxonomy system focuses on the evaluation methodologies. It categorizes approaches into annotation-based evaluations, automated metrics, hybrid strategies that combine human assessments with quantitative measures, and self-judging methods utilizing LLMs. This framework not only captures traditional metrics derived from language understanding, such as BLEU and ROUGE scores, but also incorporates advanced techniques that reflect the dynamic, interactive nature of multi-turn dialogues.

翻译：本综述系统考察了基于大语言模型（LLM）的智能体在多轮对话场景下的评估方法。我们采用受PRISMA启发的框架，系统性地回顾了近250篇学术文献，梳理了来自不同出版渠道的最新研究成果，为分析奠定了坚实基础。本研究通过构建两个相互关联的分类体系，提出了一种结构化的研究路径：一个体系界定\emph{评估内容}，另一个体系阐述\emph{评估方法}。第一个分类体系明确了多轮对话中基于LLM的智能体的关键构成要素及其评估维度，包括任务完成度、响应质量、用户体验、记忆与上下文保持能力，以及规划与工具整合能力。这些要素确保对话智能体的性能评估具备全面性和实际意义。第二个分类体系聚焦于评估方法论，将现有方法归纳为基于标注的评估、自动化指标、结合人工评估与量化测量的混合策略，以及利用LLM进行自我评判的方法。该框架不仅涵盖了源自语言理解的传统度量标准（如BLEU和ROUGE分数），还纳入了能够反映多轮对话动态交互特性的先进技术。

0

相关内容

多轮对话

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

52+阅读 · 2025年8月26日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

67+阅读 · 2025年3月4日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

28+阅读 · 2025年2月17日

基于大型语言模型的游戏智能体综述

基于大型语言模型的游戏智能体综述

专知会员服务

66+阅读 · 2024年4月3日

基于LLM的多轮对话系统的最新进展综述

基于LLM的多轮对话系统的最新进展综述

专知会员服务

58+阅读 · 2024年3月7日

《大型多模态智能体》综述

《大型多模态智能体》综述

专知会员服务

106+阅读 · 2024年2月26日

基于大型语言模型的多智能体：进展与挑战综述

基于大型语言模型的多智能体：进展与挑战综述

专知会员服务

138+阅读 · 2024年2月6日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

Agentic AI in Healthcare & Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation of LLM-based Agents

Arxiv

0+阅读 · 2月4日

Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models

Arxiv

0+阅读 · 2月2日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

Game-Theoretic Lens on LLM-based Multi-Agent Systems

Arxiv

0+阅读 · 1月21日

A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms

Arxiv

0+阅读 · 1月19日

What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding

Arxiv

0+阅读 · 1月14日

LLM-Enabled Multi-Agent Systems: Empirical Evaluation and Insights into Emerging Design Patterns & Paradigms

Arxiv

0+阅读 · 1月6日

Grounded Test-Time Adaptation for LLM Agents

Grounded Test-Time Adaptation for LLM Agents

Arxiv

0+阅读 · 1月5日

Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple LLM Judges

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

52+阅读 · 2025年8月26日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

多智能体协作机制：大语言模型综述

多智能体协作机制：大语言模型综述

专知会员服务

67+阅读 · 2025年3月4日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

28+阅读 · 2025年2月17日

基于大型语言模型的游戏智能体综述

基于大型语言模型的游戏智能体综述

专知会员服务

66+阅读 · 2024年4月3日

基于LLM的多轮对话系统的最新进展综述

基于LLM的多轮对话系统的最新进展综述

专知会员服务

58+阅读 · 2024年3月7日

《大型多模态智能体》综述

《大型多模态智能体》综述

专知会员服务

106+阅读 · 2024年2月26日

基于大型语言模型的多智能体：进展与挑战综述

基于大型语言模型的多智能体：进展与挑战综述

专知会员服务

138+阅读 · 2024年2月6日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

相关论文

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

Agentic AI in Healthcare & Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation of LLM-based Agents

Arxiv

0+阅读 · 2月4日

Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models

Arxiv

0+阅读 · 2月2日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

Game-Theoretic Lens on LLM-based Multi-Agent Systems

Arxiv

0+阅读 · 1月21日

A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms

Arxiv

0+阅读 · 1月19日

What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding

Arxiv

0+阅读 · 1月14日

LLM-Enabled Multi-Agent Systems: Empirical Evaluation and Insights into Emerging Design Patterns & Paradigms

Arxiv

0+阅读 · 1月6日

Grounded Test-Time Adaptation for LLM Agents

Grounded Test-Time Adaptation for LLM Agents

Arxiv

0+阅读 · 1月5日

Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple LLM Judges

Arxiv

0+阅读 · 1月5日

相关基金

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员