AI systems are increasingly deployed in real-world settings where their behavior is shaped by dynamic environments, evolving data distributions, and complex interactions with users and infrastructure. Traditional machine learning evaluation focuses on benchmarks and operates within sandboxed environments, providing only a limited view of the true system behavior in the wild. We argue for the development of principled auditing frameworks that monitor deployed AI systems throughout their lifecycle. We further propose framing auditing as a statistical problem of monitoring constraint violations under uncertainty, where desired properties (e.g., fairness and safety) are treated as risk-controlled constraints that must be continuously evaluated as systems evolve through iterative feedback. This perspective highlights the need for uncertainty-aware monitoring methods, socio-technical specifications of audit criteria, and auditing infrastructures that enable ongoing oversight of AI systems in the wild.


翻译:人工智能系统日益部署在行为受动态环境、演化数据分布以及与人及基础设施复杂交互影响的真实环境中。传统机器学习评估侧重于基准测试并在沙箱环境中运行,仅能提供系统在真实场景中行为的有限视角。我们主张开发原则性的审计框架,以全生命周期监测已部署的人工智能系统。进一步提出将审计框架构建为不确定性条件下约束违规监测的统计问题——将公平性、安全性等期望属性视为风险可控约束,当系统通过迭代反馈演化时必须持续评估这些约束。该视角凸显了对不确定性感知的监测方法、社会技术维度的审计标准规范,以及支持对真实环境中人工智能系统进行持续监督的审计基础设施的需求。

0
下载
关闭预览

相关内容

《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
90+阅读 · 2023年8月7日
人工智能系统可信性度量评估研究综述
专知会员服务
96+阅读 · 2022年1月30日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月29日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
90+阅读 · 2023年8月7日
人工智能系统可信性度量评估研究综述
专知会员服务
96+阅读 · 2022年1月30日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员