Automated Testing of Task-based Chatbots: How Far Are We? - 专知论文

会员服务 ·

0

Chatbot · 机器人 · 自动化测试 · 测试技术 · 自动化 ·

Automated Testing of Task-based Chatbots: How Far Are We?

翻译：基于任务的聊天机器人自动化测试：我们离目标还有多远？

Diego Clerissi,Elena Masserini,Daniela Micucci,Leonardo Mariani

from arxiv, 8 pages, 3 figures, Accepted at 23rd International Conference on Mining Software Repositories (MSR) 2026 - Registered Reports

Task-based chatbots are software, typically embedded in real-world applications, that assist users in completing tasks through a conversational interface. As chatbots are gaining popularity, effectively assessing their quality has become crucial. Whereas traditional testing techniques fail to systematically exercise the conversational space of chatbots, several approaches specifically targeting chatbots have emerged from both industry and research. Although these techniques have shown advancements over the years, they still exhibit limitations, such as simplicity of the generated test scenarios and weakness in implemented oracles. In this paper, we conduct a confirmatory study to investigate such limitations by evaluating the effectiveness of state-of-the-art chatbot testing techniques on a curated selection of task-based chatbots from GitHub, developed using the most popular commercial and open-source platforms.

翻译：基于任务的聊天机器人是一种软件，通常嵌入在现实应用中，通过对话界面协助用户完成任务。随着聊天机器人日益普及，有效评估其质量变得至关重要。尽管传统测试技术无法系统性地覆盖聊天机器人的对话空间，但业界和学术界已涌现出多种专门针对聊天机器人的测试方法。虽然这些技术多年来已取得进展，但仍存在局限性，例如生成的测试场景过于简单，以及所实现的预言机制存在缺陷。本文通过一项验证性研究，利用从GitHub精选的、基于最流行商业和开源平台开发的若干任务型聊天机器人，评估前沿聊天机器人测试技术的有效性，从而深入探究这些局限性。

0

相关内容

Chatbot

Chatbot，聊天机器人。 chatbot是场交互革命，也是一个多技术融合的平台。上图给出了构建一个chatbot需要具备的组件，简单地说chatbot = NLU(Natural Language Understanding) + NLG(Natural Language Generation)。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【新书】聊天机器人和文本生成

【新书】聊天机器人和文本生成

专知会员服务

32+阅读 · 2024年8月8日

基于大型语言模型的AI聊天机器人的完整综述

基于大型语言模型的AI聊天机器人的完整综述

专知会员服务

43+阅读 · 2024年6月26日

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

专知会员服务

16+阅读 · 2024年6月13日

【新书】《聊天机器人之书：从ELIZA到ChatGPT》，167页pdf

【新书】《聊天机器人之书：从ELIZA到ChatGPT》，167页pdf

专知会员服务

45+阅读 · 2024年2月6日

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

专知会员服务

43+阅读 · 2023年10月27日

焦李成院士：从ChatGPT到GPT-4看下一代人工智能的挑战与机遇

焦李成院士：从ChatGPT到GPT-4看下一代人工智能的挑战与机遇

专知会员服务

121+阅读 · 2023年3月19日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

【CIKM2021】基于检索的个性化聊天机器人模型IMPChat

专知会员服务

17+阅读 · 2021年8月25日

基于生成模型的闲聊机器人自动评价方法综述

专知会员服务

33+阅读 · 2021年4月18日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

开始报名！SMP机器人群聊比赛

开始报名！SMP机器人群聊比赛

哈工大SCIR

13+阅读 · 2019年6月28日

剖析腾讯知文，智能问答机器人路在何方？

剖析腾讯知文，智能问答机器人路在何方？

AI前线

12+阅读 · 2018年11月3日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

极客公园

10+阅读 · 2018年1月31日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

如何运用Python建一个聊天机器人？

如何运用Python建一个聊天机器人？

七月在线实验室

17+阅读 · 2018年1月23日

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

专知

10+阅读 · 2017年12月30日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

AI100

10+阅读 · 2017年8月25日

基于复杂耦合时间线的深空探测器自主任务规划方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

空间目标观测自动化的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Developing and evaluating a chatbot to support maternal health care

Arxiv

0+阅读 · 3月13日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 3月10日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月11日

Actions Speak Louder Than Chats: Investigating AI Chatbot Age Gating

Arxiv

0+阅读 · 2月10日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月9日

Supporting Effective Goal Setting with LLM-Based Chatbots

Arxiv

0+阅读 · 2月9日

Task-Oriented Robot-Human Handovers on Legged Manipulators

Arxiv

0+阅读 · 2月5日

Informing Robot Wellbeing Coach Design through Longitudinal Analysis of Human-AI Dialogue

Arxiv

0+阅读 · 2月4日

Before Autonomy Takes Control: Software Testing in Robotics

Arxiv

0+阅读 · 2月2日

Does My Chatbot Have an Agenda? Understanding Human and AI Agency in Human-Human-like Chatbot Interaction

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

自动化测试

最新内容

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

0+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

4+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

3+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

4+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

5+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

4+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

4+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

4+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

6+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

9+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

7+阅读 · 4月22日

相关VIP内容

【新书】聊天机器人和文本生成

【新书】聊天机器人和文本生成

专知会员服务

32+阅读 · 2024年8月8日

基于大型语言模型的AI聊天机器人的完整综述

基于大型语言模型的AI聊天机器人的完整综述

专知会员服务

43+阅读 · 2024年6月26日

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

专知会员服务

16+阅读 · 2024年6月13日

【新书】《聊天机器人之书：从ELIZA到ChatGPT》，167页pdf

【新书】《聊天机器人之书：从ELIZA到ChatGPT》，167页pdf

专知会员服务

45+阅读 · 2024年2月6日

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

专知会员服务

43+阅读 · 2023年10月27日

焦李成院士：从ChatGPT到GPT-4看下一代人工智能的挑战与机遇

焦李成院士：从ChatGPT到GPT-4看下一代人工智能的挑战与机遇

专知会员服务

121+阅读 · 2023年3月19日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

【CIKM2021】基于检索的个性化聊天机器人模型IMPChat

专知会员服务

17+阅读 · 2021年8月25日

基于生成模型的闲聊机器人自动评价方法综述

专知会员服务

33+阅读 · 2021年4月18日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

热门VIP内容

开通专知VIP会员享更多权益服务

美军条令《海军陆战队规划流程（2026版）》

《电子战数据交换模型研究报告》

国外海军作战管理系统与作战训练系统

《压缩式分布式交互仿真标准》120页

相关资讯

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

开始报名！SMP机器人群聊比赛

开始报名！SMP机器人群聊比赛

哈工大SCIR

13+阅读 · 2019年6月28日

剖析腾讯知文，智能问答机器人路在何方？

剖析腾讯知文，智能问答机器人路在何方？

AI前线

12+阅读 · 2018年11月3日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

极客公园

10+阅读 · 2018年1月31日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

如何运用Python建一个聊天机器人？

如何运用Python建一个聊天机器人？

七月在线实验室

17+阅读 · 2018年1月23日

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

专知

10+阅读 · 2017年12月30日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

视频教程【第10期】 | 如何通过调用API来搭建一个聊天机器人

AI100

10+阅读 · 2017年8月25日

相关论文

Developing and evaluating a chatbot to support maternal health care

Arxiv

0+阅读 · 3月13日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 3月10日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月11日

Actions Speak Louder Than Chats: Investigating AI Chatbot Age Gating

Arxiv

0+阅读 · 2月10日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月9日

Supporting Effective Goal Setting with LLM-Based Chatbots

Arxiv

0+阅读 · 2月9日

Task-Oriented Robot-Human Handovers on Legged Manipulators

Arxiv

0+阅读 · 2月5日

Informing Robot Wellbeing Coach Design through Longitudinal Analysis of Human-AI Dialogue

Arxiv

0+阅读 · 2月4日

Before Autonomy Takes Control: Software Testing in Robotics

Arxiv

0+阅读 · 2月2日

Does My Chatbot Have an Agenda? Understanding Human and AI Agency in Human-Human-like Chatbot Interaction

Arxiv

0+阅读 · 1月30日

相关基金

基于复杂耦合时间线的深空探测器自主任务规划方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

空间目标观测自动化的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员