AI safety and alignment research has predominantly been focused on methods for safeguarding individual AI systems, resting on the assumption of an eventual emergence of a monolithic Artificial General Intelligence (AGI). The alternative AGI emergence hypothesis, where general capability levels are first manifested through coordination in groups of sub-AGI individual agents with complementary skills and affordances, has received far less attention. Here we argue that this patchwork AGI hypothesis needs to be given serious consideration, and should inform the development of corresponding safeguards and mitigations. The rapid deployment of advanced AI agents with tool-use capabilities and the ability to communicate and coordinate makes this an urgent safety consideration. We therefore propose a framework for distributional AGI safety that moves beyond evaluating and aligning individual agents. This framework centers on the design and implementation of virtual agentic sandbox economies (impermeable or semi-permeable), where agent-to-agent transactions are governed by robust market mechanisms, coupled with appropriate auditability, reputation management, and oversight to mitigate collective risks.


翻译:人工智能安全与对齐研究主要集中于保障个体人工智能系统的防护方法,其前提假设是未来将出现一个单一的通用人工智能(AGI)。另一种AGI涌现假说——即通用能力水平首先通过具有互补技能和可供性的亚AGI个体智能体群体中的协调协作得以体现——则鲜少受到关注。本文认为,这一拼凑式AGI假说需要得到严肃考量,并应指导相应防护与缓解措施的制定。具备工具使用能力、能够沟通与协调的先进AI智能体的快速部署,使得这一安全议题尤为紧迫。为此,我们提出一个超越个体智能体评估与对齐的分布式AGI安全框架。该框架以设计与实施虚拟智能体沙盒经济(不可渗透或半可渗透)为核心,其中智能体间的交互由稳健的市场机制所约束,并辅以适当的可审计性、声誉管理与监督机制,以缓解集体性风险。

0
下载
关闭预览

相关内容

AI智能体基础设施
专知会员服务
39+阅读 · 2025年7月12日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
98+阅读 · 2020年8月24日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
【NeurIPS2019】图变换网络:Graph Transformer Network
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
一步步理解BERT
AINLP
34+阅读 · 2019年6月19日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2022年2月4日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
38+阅读 · 2020年12月2日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
VIP会员
相关论文
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2022年2月4日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
38+阅读 · 2020年12月2日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员