Large language models (LLMs) are increasingly embedded in high-stakes workflows, where failures propagate beyond isolated model errors into systemic breakdowns that can lead to legal exposure, reputational damage, and material financial losses. Building on this shift from model-centric risks to end-to-end system vulnerabilities, we analyze real-world AI incident reporting and mitigation actions to derive an empirically grounded taxonomy that links failure dynamics to actionable interventions. Using a unified corpus of 9,705 media-reported AI incident articles, we extract explicit mitigation actions from 6,893 texts via structured prompting and then systematically classify responses to extend MIT's AI Risk Mitigation Taxonomy. Our taxonomy introduces four new mitigation categories, including 1) Corrective and Restrictive Actions, 2) Legal/Regulatory and Enforcement Actions, 3) Financial, Economic, and Market Controls, and 4) Avoidance and Denial, capturing response patterns that are becoming increasingly prevalent as AI deployment and regulation evolve. Quantitatively, we label the mitigation dataset with 32 distinct labels, producing 23,994 label assignments; 9,629 of these reflect previously unseen mitigation patterns, yielding a 67% increase of the original subcategory coverage and substantially enhancing the taxonomy's applicability to emerging systemic failure modes. By structuring incident responses, the paper strengthens "diagnosis-to-prescription" guidance and advances continuous, taxonomy-aligned post-deployment monitoring to prevent cascading incidents and downstream impact.


翻译:大型语言模型(LLM)正日益嵌入高风险工作流程中,其失败不再局限于孤立的模型错误,而是会演变为系统性故障,可能导致法律风险、声誉损害和实质性财务损失。基于这种从以模型为中心的风险向端到端系统漏洞的转变,我们通过分析现实世界的人工智能事件报告与缓解措施,推导出一个基于实证的分类法,将故障动态与可操作的干预措施联系起来。利用一个包含9,705篇媒体报道的人工智能事件文章的统一语料库,我们通过结构化提示从6,893篇文本中提取出明确的缓解措施,并系统地对应对措施进行分类,以扩展麻省理工学院(MIT)的人工智能风险缓解分类法。我们的分类法引入了四个新的缓解类别,包括:1)纠正性与限制性措施;2)法律/监管与执法措施;3)财务、经济与市场控制;4)规避与否认,这些类别捕捉了随着人工智能部署与监管发展而日益普遍的应对模式。在量化方面,我们使用32个不同的标签对缓解数据集进行标注,生成了23,994个标签分配;其中9,629个反映了先前未见的缓解模式,使原子类别覆盖率提升了67%,显著增强了该分类法对新兴系统性故障模式的适用性。通过对事件应对措施进行结构化梳理,本文强化了“从诊断到处置”的指导框架,并推进了持续、与分类法一致的后部署监测,以预防连锁事件及下游影响。

0
下载
关闭预览

相关内容

AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员