ChatbotManip: A Dataset to Facilitate Evaluation and Oversight of Manipulative Chatbot Behaviour - 专知论文

会员服务 ·

0

Chatbot · MoDELS · 数据集 · 多样性 · 情景 ·

ChatbotManip: A Dataset to Facilitate Evaluation and Oversight of Manipulative Chatbot Behaviour

翻译：ChatbotManip：面向聊天机器人操纵行为评估与监管的数据集

Jack Contro,Simrat Deol,Yulan He,Martim Brandão

This paper introduces ChatbotManip, a novel dataset for studying manipulation in Chatbots. It contains simulated generated conversations between a chatbot and a (simulated) user, where the chatbot is explicitly asked to showcase manipulation tactics, persuade the user towards some goal, or simply be helpful. We consider a diverse set of chatbot manipulation contexts, from consumer and personal advice to citizen advice and controversial proposition argumentation. Each conversation is annotated by human annotators for both general manipulation and specific manipulation tactics. Our research reveals three key findings. First, Large Language Models (LLMs) can be manipulative when explicitly instructed, with annotators identifying manipulation in approximately 84\% of such conversations. Second, even when only instructed to be ``persuasive'' without explicit manipulation prompts, LLMs frequently default to controversial manipulative strategies, particularly gaslighting and fear enhancement. Third, small fine-tuned open source models, such as BERT+BiLSTM have a performance comparable to zero-shot classification with larger models like Gemini 2.5 pro in detecting manipulation, but are not yet reliable for real-world oversight. Our work provides important insights for AI safety research and highlights the need of addressing manipulation risks as LLMs are increasingly deployed in consumer-facing applications.

翻译：本文提出ChatbotManip——一个用于研究聊天机器人操纵行为的新颖数据集。该数据集包含聊天机器人与（模拟）用户之间生成的模拟对话，其中要求聊天机器人明确展示操纵策略、说服用户实现特定目标，或仅提供帮助。我们考虑了多样化的聊天机器人操纵场景，涵盖消费者建议、个人建议、公民建议及争议性命题论证。每条对话均由人类标注员对通用操纵行为和具体操纵策略进行标注。研究揭示了三个关键发现：第一，当被明确指示时，大语言模型（LLMs）可能表现出操纵性，标注员在约84%的此类对话中识别出操纵行为；第二，即使仅被指示进行“说服”而未提供明确操纵提示，LLMs也频繁默认采用有争议的操纵策略，尤其是煤气灯效应和恐惧强化；第三，小型微调开源模型（如BERT+BiLSTM）在检测操纵行为方面，其性能可与大型模型（如Gemini 2.5 Pro）的零样本分类相媲美，但仍不足以用于实际监管。我们的工作为人工智能安全研究提供了重要见解，并强调随着LLMs在面向消费者应用中日益普及，亟需解决操纵风险问题。

0

相关内容

Chatbot

Chatbot，聊天机器人。 chatbot是场交互革命，也是一个多技术融合的平台。上图给出了构建一个chatbot需要具备的组件，简单地说chatbot = NLU(Natural Language Understanding) + NLG(Natural Language Generation)。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【新书】聊天机器人和文本生成

【新书】聊天机器人和文本生成

专知会员服务

32+阅读 · 2024年8月8日

基于大型语言模型的AI聊天机器人的完整综述

基于大型语言模型的AI聊天机器人的完整综述

专知会员服务

43+阅读 · 2024年6月26日

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

专知会员服务

17+阅读 · 2024年6月13日

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

专知会员服务

43+阅读 · 2023年10月27日

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

专知会员服务

983+阅读 · 2023年3月12日

【ChatGPT系列报告】算力、数据与模型综合分析，46页Slides

【ChatGPT系列报告】算力、数据与模型综合分析，46页Slides

专知会员服务

155+阅读 · 2023年3月1日

ChatGPT和机器人如何结合？微软最新《ChatGPT机器人:设计原则和模型能力》论文，25页pdf

ChatGPT和机器人如何结合？微软最新《ChatGPT机器人:设计原则和模型能力》论文，25页pdf

专知会员服务

121+阅读 · 2023年2月25日

【ChatGPT系列报告】为人形机器人注入“灵魂”

【ChatGPT系列报告】为人形机器人注入“灵魂”

专知会员服务

77+阅读 · 2023年2月20日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

2021年中国对话机器人chatbot行业发展研究报告(附下载)

专知会员服务

51+阅读 · 2021年7月9日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

如何从零开始用PyTorch实现Chatbot？（附完整代码）

如何从零开始用PyTorch实现Chatbot？（附完整代码）

AI100

20+阅读 · 2019年3月1日

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

AI研习社

13+阅读 · 2019年1月21日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

专知

10+阅读 · 2017年12月30日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

当知识图谱遇上聊天机器人

当知识图谱遇上聊天机器人

PaperWeekly

34+阅读 · 2017年7月16日

聊天机器人资料汇总

聊天机器人资料汇总

我爱机器学习

29+阅读 · 2016年12月14日

面向互联网大数据的用户兴趣挖掘及预测研究

国家自然科学基金

6+阅读 · 2017年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

ReMoBot: Retrieval-Based Few-Shot Imitation Learning for Mobile Manipulation with Vision Foundation Models

Arxiv

0+阅读 · 6月15日

DataLadder: A Simulation-Enabled Interconversion Toolchain for the Embodied Data Pyramid

Arxiv

0+阅读 · 6月15日

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Arxiv

0+阅读 · 6月13日

ChatPlanner: A Large Language Model Framework for Personalized Public Transit Routing

Arxiv

0+阅读 · 6月13日

Understanding and Supporting Online Discussion with Opinionated Chatbots

Arxiv

0+阅读 · 6月10日

RoboManipBaselines: A Unified Framework for Imitation Learning in Robotic Manipulation across Real and Simulation Environments

Arxiv

0+阅读 · 5月25日

Evaluating Commercial AI Chatbots as News Intermediaries

Arxiv

0+阅读 · 5月21日

An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments

Arxiv

0+阅读 · 5月18日

What if AI systems weren't chatbots?

Arxiv

0+阅读 · 5月8日

Designing Psychometric Bias Measures for ChatBots: An Application to Racial Bias Measurement

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【新书】聊天机器人和文本生成

【新书】聊天机器人和文本生成

专知会员服务

32+阅读 · 2024年8月8日

基于大型语言模型的AI聊天机器人的完整综述

基于大型语言模型的AI聊天机器人的完整综述

专知会员服务

43+阅读 · 2024年6月26日

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

专知会员服务

17+阅读 · 2024年6月13日

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

用魔法打败魔法，最新NDSS论文实现全自动化攻陷各大厂商大模型聊天机器人

专知会员服务

43+阅读 · 2023年10月27日

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

专知会员服务

983+阅读 · 2023年3月12日

【ChatGPT系列报告】算力、数据与模型综合分析，46页Slides

【ChatGPT系列报告】算力、数据与模型综合分析，46页Slides

专知会员服务

155+阅读 · 2023年3月1日

ChatGPT和机器人如何结合？微软最新《ChatGPT机器人:设计原则和模型能力》论文，25页pdf

ChatGPT和机器人如何结合？微软最新《ChatGPT机器人:设计原则和模型能力》论文，25页pdf

专知会员服务

121+阅读 · 2023年2月25日

【ChatGPT系列报告】为人形机器人注入“灵魂”

【ChatGPT系列报告】为人形机器人注入“灵魂”

专知会员服务

77+阅读 · 2023年2月20日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

2021年中国对话机器人chatbot行业发展研究报告(附下载)

专知会员服务

51+阅读 · 2021年7月9日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

基于金融-司法领域(兼有闲聊性质)的聊天机器人

基于金融-司法领域(兼有闲聊性质)的聊天机器人

专知

10+阅读 · 2019年7月8日

如何从零开始用PyTorch实现Chatbot？（附完整代码）

如何从零开始用PyTorch实现Chatbot？（附完整代码）

AI100

20+阅读 · 2019年3月1日

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

AI研习社

13+阅读 · 2019年1月21日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

Tensorflow实战系列，手把手教你构建一个Chatbot（博文+视频）

专知

10+阅读 · 2017年12月30日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

当知识图谱遇上聊天机器人

当知识图谱遇上聊天机器人

PaperWeekly

34+阅读 · 2017年7月16日

聊天机器人资料汇总

聊天机器人资料汇总

我爱机器学习

29+阅读 · 2016年12月14日

相关论文

ReMoBot: Retrieval-Based Few-Shot Imitation Learning for Mobile Manipulation with Vision Foundation Models

Arxiv

0+阅读 · 6月15日

DataLadder: A Simulation-Enabled Interconversion Toolchain for the Embodied Data Pyramid

Arxiv

0+阅读 · 6月15日

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Arxiv

0+阅读 · 6月13日

ChatPlanner: A Large Language Model Framework for Personalized Public Transit Routing

Arxiv

0+阅读 · 6月13日

Understanding and Supporting Online Discussion with Opinionated Chatbots

Arxiv

0+阅读 · 6月10日

RoboManipBaselines: A Unified Framework for Imitation Learning in Robotic Manipulation across Real and Simulation Environments

Arxiv

0+阅读 · 5月25日

Evaluating Commercial AI Chatbots as News Intermediaries

Arxiv

0+阅读 · 5月21日

An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments

Arxiv

0+阅读 · 5月18日

What if AI systems weren't chatbots?

Arxiv

0+阅读 · 5月8日

Designing Psychometric Bias Measures for ChatBots: An Application to Racial Bias Measurement

Arxiv

0+阅读 · 5月5日

相关基金

面向互联网大数据的用户兴趣挖掘及预测研究

国家自然科学基金

6+阅读 · 2017年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员