Does AI understand human values? While this remains an open philosophical question, we take a pragmatic stance by introducing VAPT, the Value-Alignment Perception Toolkit, for studying how LLMs reflect people's values and how people judge those reflections. 20 participants texted a human-like chatbot over a month, then completed a 2-hour interview with our toolkit evaluating AI's ability to extract (pull details regarding), embody (make decisions guided by), and explain (provide proof of) human values. 13 participants left our study convinced that AI can understand human values. Participants found the experience insightful for self-reflection and found themselves getting persuaded by the AI's reasoning. Thus, we warn about "weaponized empathy": a potentially dangerous design pattern that may arise in value-aligned, yet welfare-misaligned AI. VAPT offers concrete artifacts and design implications to evaluate and responsibly build value-aligned conversational agents with transparency, consent, and safeguards as AI grows more capable and human-like into the future.


翻译:人工智能是否理解人类价值观?尽管这仍是一个开放的哲学问题,但我们采取务实立场,引入VAPT(价值观对齐感知工具包)来研究大型语言模型如何反映人们的价值观,以及人们如何评判这些反映。20名参与者在一个月内与类人聊天机器人进行文本交流,随后通过我们的工具包完成了2小时访谈,评估AI在提取(获取相关细节)、体现(做出受指导的决策)和解释(提供证明依据)人类价值观方面的能力。13名参与者最终确信AI能够理解人类价值观。参与者认为该体验对自我反思具有启发性,并发现自己会被AI的推理所说服。因此,我们提出"武器化共情"警告:这是一种可能出现在价值观对齐但福祉未对齐的AI中的危险设计模式。随着AI能力日益增强且更趋近人类,VAPT提供了具体的研究成果和设计启示,以透明、知情同意和保障机制为前提,评估并负责任地构建价值观对齐的对话智能体。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
哈工大秦兵教授 | 大语言模型之人类价值观对齐
专知会员服务
62+阅读 · 2023年8月4日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
知识图谱 vs. 对话系统专题讨论 - PaperWeekly 社区
PaperWeekly
10+阅读 · 2017年10月18日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员