Astra: AI Safety, Trust, & Risk Assessment - 专知论文

会员服务 ·

0

智能安全 · 人工智能安全 · 安全风险 · 系统 · 类别 ·

Astra: AI Safety, Trust, & Risk Assessment

翻译：Astra：人工智能安全、信任与风险评估

Pranav Aggarwal,Ananya Basotia,Debayan Gupta,Rahul Kulkarni,Shalini Kapoor,Kashyap J.,A. Mukundan,Aishwarya Pokhriyal,Anirban Sen,Aryan Shah,Aalok Thakkar

This paper argues that existing global AI safety frameworks exhibit contextual blindness towards India's unique socio-technical landscape. With a population of 1.5 billion and a massive informal economy, India's AI integration faces specific challenges such as caste-based discrimination, linguistic exclusion of vernacular speakers, and infrastructure failures in low-connectivity rural zones, that are frequently overlooked by Western, market-centric narratives. We introduce ASTRA, an empirically grounded AI Safety Risk Database designed to categorize risks through a bottom-up, inductive process. Unlike general taxonomies, ASTRA defines AI Safety Risks specifically as hazards stemming from design flaws such as skewed training sets or lack of guardrails that can be mitigated through technical iteration or architectural changes. This framework employs a tripartite causal taxonomy to evaluate risks based on their implementation timing (development, deployment, or usage), the responsible entity (the system or the user), and the nature of the intent (unintentional vs. intentional). Central to the research is a domain-agnostic ontology that organizes 37 leaf-level risk classes into two primary meta-categories: Social Risks and Frontier/Socio-Structural Risks. By focusing initial efforts on the Education and Financial Lending sectors, the paper establishes a scalable foundation for a "living" regulatory utility intended to evolve alongside India's expanding AI ecosystem.

翻译：本文认为，现有全球人工智能安全框架对印度独特的社会技术环境存在情境盲区。印度拥有15亿人口和庞大的非正规经济，其人工智能融合面临种姓歧视、方言使用者语言排斥以及低连接性农村地区基础设施故障等具体挑战，这些常被西方以市场为中心的论述所忽视。我们提出ASTRA——一个基于实证的人工智能安全风险数据库，旨在通过自下而上的归纳过程对风险进行分类。与通用分类法不同，ASTRA将人工智能安全风险明确定义为源于设计缺陷（如训练集偏差或防护机制缺失）的危害，此类风险可通过技术迭代或架构调整予以缓解。该框架采用三重因果分类法，依据风险的实施时机（开发、部署或使用阶段）、责任主体（系统或用户）以及意图性质（无意与有意）进行评估。研究的核心是一个领域无关的本体论，它将37个叶级风险类别组织成两个主要元类别：社会风险与前沿/社会结构风险。通过将初期研究重点集中于教育和金融信贷领域，本文为构建"动态"监管工具奠定了可扩展的基础，该工具旨在伴随印度不断扩展的人工智能生态系统同步演进。

0

相关内容

智能安全

人工智能伦理风险与治理研究

人工智能伦理风险与治理研究

专知会员服务

20+阅读 · 2025年4月22日

中国信通院发布《人工智能风险治理报告（2024年）》

中国信通院发布《人工智能风险治理报告（2024年）》

专知会员服务

48+阅读 · 2024年12月26日

国家标准《人工智能风险管理能力评估》（征求意见稿）

国家标准《人工智能风险管理能力评估》（征求意见稿）

专知会员服务

27+阅读 · 2024年11月2日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

43+阅读 · 2024年5月27日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

人工智能与国家政治安全

人工智能与国家政治安全

专知会员服务

66+阅读 · 2022年6月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

74+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

专知

25+阅读 · 2022年4月13日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

推荐几个权威且免费的人工智能学习资源

推荐几个权威且免费的人工智能学习资源

深度学习世界

10+阅读 · 2018年5月2日

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

ESAA-Security: An Event-Sourced, Verifiable Architecture for Agent-Assisted Security Audits of AI-Generated Code

Arxiv

0+阅读 · 3月6日

Secure human oversight of AI: Threat modeling in a socio-technical context

Arxiv

0+阅读 · 3月5日

Safety First: Psychological Safety as the Key to AI Transformation

Arxiv

0+阅读 · 2月26日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月21日

Assessing the Case for Africa-Centric AI Safety Evaluations

Arxiv

0+阅读 · 2月14日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

How Should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 2月8日

Code, Capital, and Clusters: Understanding Firm Performance in the UK AI Economy

Arxiv

0+阅读 · 2月5日

How should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

人工智能安全

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

2+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

2+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

9+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

5+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

6+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

6+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

人工智能伦理风险与治理研究

人工智能伦理风险与治理研究

专知会员服务

20+阅读 · 2025年4月22日

中国信通院发布《人工智能风险治理报告（2024年）》

中国信通院发布《人工智能风险治理报告（2024年）》

专知会员服务

48+阅读 · 2024年12月26日

国家标准《人工智能风险管理能力评估》（征求意见稿）

国家标准《人工智能风险管理能力评估》（征求意见稿）

专知会员服务

27+阅读 · 2024年11月2日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

43+阅读 · 2024年5月27日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

人工智能与国家政治安全

人工智能与国家政治安全

专知会员服务

66+阅读 · 2022年6月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

74+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

重磅！最新《人工智能白皮书（2022年）》发布，42页pdf

专知

25+阅读 · 2022年4月13日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

推荐几个权威且免费的人工智能学习资源

推荐几个权威且免费的人工智能学习资源

深度学习世界

10+阅读 · 2018年5月2日

相关论文

ESAA-Security: An Event-Sourced, Verifiable Architecture for Agent-Assisted Security Audits of AI-Generated Code

Arxiv

0+阅读 · 3月6日

Secure human oversight of AI: Threat modeling in a socio-technical context

Arxiv

0+阅读 · 3月5日

Safety First: Psychological Safety as the Key to AI Transformation

Arxiv

0+阅读 · 2月26日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月21日

Assessing the Case for Africa-Centric AI Safety Evaluations

Arxiv

0+阅读 · 2月14日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

How Should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 2月8日

Code, Capital, and Clusters: Understanding Firm Performance in the UK AI Economy

Arxiv

0+阅读 · 2月5日

How should AI Safety Benchmarks Benchmark Safety?

Arxiv

0+阅读 · 1月30日

相关基金

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员