Tensions between AI Safety (AIS) and AI Ethics (AIE) have increasingly surfaced in AI governance and public debates about AI, leading to what we term the "responsible AI divides". We introduce a model that categorizes four modes of engagement with the tensions: radical confrontation, disengagement, compartmentalized coexistence, and critical bridging. We then investigate how critical bridging, with a particular focus on bridging problems, offers one of the most viable constructive paths for advancing responsible AI. Using computational tools to analyze a curated dataset of 3,550 papers, we map the research landscapes of AIE and AIS to identify both distinct and overlapping problems. Our findings point to both thematic divides and overlaps. For example, we find that AIE has long grappled with overcoming injustice and tangible AI harms, whereas AIS has primarily embodied an anticipatory approach focused on the mitigation of risks from AI capabilities. At the same time, we find significant overlap in core research concerns across both AIE and AIS around transparency, reproducibility, and inadequate governance mechanisms. As AIE and AIS continue to evolve, we recommend focusing on bridging problems as a constructive path forward for enhancing collaborative AI governance. We offer a series of recommendations to integrate shared considerations into a collaborative approach to responsible AI. Alongside our proposal, we highlight its limitations and explore open problems for future research. All data including the fully annotated dataset of papers with code to reproduce our figures can be found at: https://github.com/gyevnarb/ai-safety-ethics.


翻译:人工智能安全(AIS)与人工智能伦理(AIE)之间的张力在人工智能治理和关于人工智能的公共辩论中日益凸显,形成了我们所谓的“负责任人工智能分歧”。我们引入一个模型,将应对这些张力的方式分为四类:激进对抗、脱离接触、区隔共存与批判性弥合。随后,我们探讨了批判性弥合——尤其侧重于弥合性问题——如何为推进负责任人工智能提供最具可行性的建设性路径之一。通过使用计算工具分析一个包含3550篇论文的精选数据集,我们绘制了AIE和AIS的研究版图,以识别其各自独特及相互重叠的问题。我们的研究结果揭示了主题上的分歧与重叠。例如,我们发现AIE长期致力于克服不公正和具体的人工智能危害,而AIS则主要体现为一种前瞻性方法,专注于缓解人工智能能力带来的风险。与此同时,我们发现AIE和AIS在透明度、可复现性以及治理机制不足等核心研究关切上存在显著重叠。随着AIE和AIS的持续发展,我们建议将重点放在弥合性问题上,将其作为加强协作式人工智能治理的建设性前进方向。我们提出一系列建议,旨在将共同的考量整合到负责任人工智能的协作方法中。在提出建议的同时,我们也指出了其局限性,并探讨了未来研究的开放性问题。所有数据,包括完整标注的论文数据集及用于复现我们图表的代码,均可在以下网址找到:https://github.com/gyevnarb/ai-safety-ethics。

0
下载
关闭预览

相关内容

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支。
《人工智能辅助决策中信任的时间演化​​》225页
专知会员服务
24+阅读 · 2025年5月12日
《在单智能体与多智能体AI系统中融入人类合理性》100页
《人工智能辅助决策面临的三大挑战》最新33页
专知会员服务
52+阅读 · 2025年1月8日
《人工智能辅助决策面临的三大挑战》
专知会员服务
85+阅读 · 2023年12月15日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
137+阅读 · 2023年7月31日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 3月6日
VIP会员
最新内容
【CVPR 2026】语义泡沫:统一空间与语义场景分解
专知会员服务
2+阅读 · 今天15:33
《图世界模型:概念、分类体系与未来方向》
专知会员服务
10+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
16+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
12+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
12+阅读 · 4月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员