协同构建对齐：一种参与式方法以定位人工智能价值观 (Co-Constructing Alignment: A Participatory Approach to Situate AI Values) - 专知论文

会员服务 ·

0

对齐 · 协同 · 构建 · 系统 · 交互 ·

Co-Constructing Alignment: A Participatory Approach to Situate AI Values

翻译：协同构建对齐：一种参与式方法以定位人工智能价值观

Anne Arzberger,Enrico Liscio,Maria Luce Lupetti,Inigo Martinez de Rituerto de Troya,Jie Yang

As AI systems become embedded in everyday practice, value misalignment has emerged as a pressing concern. Yet, dominant alignment approaches remain model centric, treating users as passive recipients of prespecified values rather than as epistemic agents who encounter and respond to misalignment during interactions. Drawing on situated perspectives, we frame alignment as an interactional practice co-constructed during human AI interaction. We investigate how users understand and wish to contribute to this process through a participatory workshop that combines misalignment diaries with generative design activities. We surface how misalignments materialise in practice and how users envision acting on them, grounded in the context of researchers using Large Language Models as research assistants. Our findings show that misalignments are experienced less as abstract ethical violations than as unexpected responses, and task or social breakdowns. Participants articulated roles ranging from adjusting and interpreting model behaviour to deliberate non-engagement as an alignment strategy. We conclude with implications for designing systems that support alignment as an ongoing, situated, and shared practice.

翻译：随着人工智能系统日益融入日常实践，价值观错位已成为一个紧迫问题。然而，主流对齐方法仍以模型为中心，将用户视为预设价值观的被动接受者，而非在交互过程中遭遇并应对错位的认知主体。借鉴情境化视角，我们将对齐框架化为一种在人类-人工智能交互过程中协同构建的互动实践。通过结合错位日记与生成式设计活动的参与式工作坊，我们探究了用户如何理解并期望参与这一过程。基于研究人员使用大型语言模型作为研究助理的语境，我们揭示了错位如何在实践中具体呈现，以及用户如何设想对其采取行动。研究发现表明，错位体验更多表现为意外响应、任务或社交中断，而非抽象的伦理违背。参与者阐述了从调整和解释模型行为到策略性不介入等多种角色，并将其作为对齐策略。最后，我们探讨了设计支持对齐作为持续性、情境化及共享实践的系统所蕴含的意义。

0

相关内容

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

专知会员服务

25+阅读 · 2025年12月7日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

《人类-人工智能握手框架：人与人工智能合作的双向方法》

《人类-人工智能握手框架：人与人工智能合作的双向方法》

专知会员服务

39+阅读 · 2025年2月5日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

专知会员服务

44+阅读 · 2024年4月2日

大语言模型价值观对齐研究与展望

大语言模型价值观对齐研究与展望

专知会员服务

37+阅读 · 2024年3月19日

112页《人工智能对齐：全面性综述》中文版

112页《人工智能对齐：全面性综述》中文版

专知会员服务

159+阅读 · 2024年2月1日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

哈工大秦兵教授 | 大语言模型之人类价值观对齐

哈工大秦兵教授 | 大语言模型之人类价值观对齐

专知会员服务

62+阅读 · 2023年8月4日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

CCCF专栏文章：人机共融智能

CCCF专栏文章：人机共融智能

中国计算机学会

15+阅读 · 2017年12月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向服务的复杂产品设计建模与协同决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

协同视角下社会化搜索的形成机制及实现模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Effects of Personality- and Opinion-Alignment in Human-AI Interaction

Arxiv

0+阅读 · 2月17日

Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

Arxiv

0+阅读 · 2月16日

Building Intelligent User Interfaces for Human-AI Alignment

Arxiv

0+阅读 · 2月12日

A Statistical Framework for Alignment with Biased AI Feedback

Arxiv

0+阅读 · 2月9日

Structural transparency of societal AI alignment through Institutional Logics

Arxiv

0+阅读 · 2月9日

Emergent Alignment via Competition

Arxiv

0+阅读 · 2月2日

CommunityBench: Benchmarking Community-Level Alignment across Diverse Groups and Tasks

Arxiv

0+阅读 · 1月20日

Adversarial Alignment: Ensuring Value Consistency in Large Language Models for Sensitive Domains

Arxiv

0+阅读 · 1月19日

Institutional AI: A Governance Framework for Distributional AGI Safety

Arxiv

0+阅读 · 1月15日

Collaborative Causal Sensemaking: Closing the Complementarity Gap in Human-AI Decision Support

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

专知会员服务

25+阅读 · 2025年12月7日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

《人类-人工智能握手框架：人与人工智能合作的双向方法》

《人类-人工智能握手框架：人与人工智能合作的双向方法》

专知会员服务

39+阅读 · 2025年2月5日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

专知会员服务

44+阅读 · 2024年4月2日

大语言模型价值观对齐研究与展望

大语言模型价值观对齐研究与展望

专知会员服务

37+阅读 · 2024年3月19日

112页《人工智能对齐：全面性综述》中文版

112页《人工智能对齐：全面性综述》中文版

专知会员服务

159+阅读 · 2024年2月1日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

哈工大秦兵教授 | 大语言模型之人类价值观对齐

哈工大秦兵教授 | 大语言模型之人类价值观对齐

专知会员服务

62+阅读 · 2023年8月4日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

CCCF专栏文章：人机共融智能

CCCF专栏文章：人机共融智能

中国计算机学会

15+阅读 · 2017年12月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Effects of Personality- and Opinion-Alignment in Human-AI Interaction

Arxiv

0+阅读 · 2月17日

Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

Arxiv

0+阅读 · 2月16日

Building Intelligent User Interfaces for Human-AI Alignment

Arxiv

0+阅读 · 2月12日

A Statistical Framework for Alignment with Biased AI Feedback

Arxiv

0+阅读 · 2月9日

Structural transparency of societal AI alignment through Institutional Logics

Arxiv

0+阅读 · 2月9日

Emergent Alignment via Competition

Arxiv

0+阅读 · 2月2日

CommunityBench: Benchmarking Community-Level Alignment across Diverse Groups and Tasks

Arxiv

0+阅读 · 1月20日

Adversarial Alignment: Ensuring Value Consistency in Large Language Models for Sensitive Domains

Arxiv

0+阅读 · 1月19日

Institutional AI: A Governance Framework for Distributional AGI Safety

Arxiv

0+阅读 · 1月15日

Collaborative Causal Sensemaking: Closing the Complementarity Gap in Human-AI Decision Support

Arxiv

0+阅读 · 1月13日

相关基金

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向服务的复杂产品设计建模与协同决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

协同视角下社会化搜索的形成机制及实现模式研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员