【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障 - 专知VIP

会员服务 ·

10

可信人工智能 · 智能体 ·

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在这篇论文中，我们开发了具有理论保证的算法，以确保机器学习（ML）系统的可靠性与问责性。随着 ML 系统从预测模型演进为生成模型和自主智能体，可信 AI 的研究格局也发生了转变。本文提出了一系列基于信息论、优化理论和统计学习的工具，用于缓解偏见、减少任意性决策、确保内容来源可追溯性，并在自主场景中评估由 LLM 驱动的智能体。为缓解传统 ML 模型中的偏见与任意性问题，我们提出了一种基于核方法的技术，以在复杂子群体上实现多重准确性，而这些子群体往往会被传统人口统计类别所忽略。我们还开发了应对预测多重性的方法；预测多重性指的是多个同样准确的模型却会对个体样本给出相互冲突的预测。我们通过为大语言模型（LLM）设计水印机制来确保生成式 AI 的问责性。我们刻画了水印检测与文本失真之间的信息论权衡，并借助最优传输和编码理论推导出最优水印策略。实证评估表明，我们的水印方法在语言生成和代码生成任务中实现了更优的检测—质量权衡。最后，我们通过首个完全由 LLM 驱动的供应链模拟器，在多智能体环境中评估自主 LLM 智能体。尽管这些智能体能够优于人类专家，最高可将成本降低 67%，但我们也识别出若干系统性风险，例如代价高昂的尾部事件。

成为VIP会员查看完整内容

16

相关内容

可信人工智能

可信人工智能

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

13+阅读 · 6月14日

《关键任务型人工智能的可靠性》

《关键任务型人工智能的可靠性》

专知会员服务

20+阅读 · 4月9日

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

30+阅读 · 2025年12月13日

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

35+阅读 · 2025年9月16日

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

专知会员服务

20+阅读 · 2025年6月15日

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

专知会员服务

20+阅读 · 2025年5月7日

《基于智能体的无人机蜂群在人工智能攻击下的风险分析》博士论文

《基于智能体的无人机蜂群在人工智能攻击下的风险分析》博士论文

专知会员服务

65+阅读 · 2024年3月10日

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

专知会员服务

31+阅读 · 2024年2月7日

【MIT博士论文】可靠机器学习模型部署，279页pdf

【MIT博士论文】可靠机器学习模型部署，279页pdf

专知会员服务

56+阅读 · 2023年11月21日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

专知

13+阅读 · 2020年3月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【综述】医疗可解释人工智能综述论文

【综述】医疗可解释人工智能综述论文

专知

33+阅读 · 2019年7月18日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

年度必读：2018最具突破性人工智能论文Top 10

年度必读：2018最具突破性人工智能论文Top 10

机器学习算法与Python学习

11+阅读 · 2018年12月2日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Model Validation of Agentic AI Systems: A POMDP-Based Framework for Belief-State, Forecast, and Policy Validation

Arxiv

0+阅读 · 6月16日

From Agent Traces to Trust: A Survey of Evidence Tracing and Execution Provenance in LLM Agents

Arxiv

0+阅读 · 6月14日

Assistance to Autonomy: A Systematic Literature Review of Agentic AI across the Software Development Life Cycle

Arxiv

0+阅读 · 6月13日

How AI Agents Reshape Knowledge Work: Autonomy, Efficiency, and Scope

Arxiv

0+阅读 · 6月5日

From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

Arxiv

0+阅读 · 6月4日

From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents

Arxiv

0+阅读 · 6月3日

Mechanism Plausibility in Generative Agent-Based Modeling

Arxiv

0+阅读 · 5月17日

Towards Trustworthy and Explainable AI for Perception Models: From Concept to Prototype Vehicle Deployment

Arxiv

0+阅读 · 5月15日

Upholding Epistemic Agency: A Brouwerian Assertibility Constraint for Responsible AI

Arxiv

0+阅读 · 5月9日

Quantifying Trust: Financial Risk Management for Trustworthy AI Agents

Arxiv

0+阅读 · 5月4日

VIP会员

相关主题

可信人工智能

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

0+阅读 · 46分钟前

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

2+阅读 · 今天15:32

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

1+阅读 · 今天15:24

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

0+阅读 · 今天15:15

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

1+阅读 · 今天15:11

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

0+阅读 · 今天14:43

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

0+阅读 · 今天14:40

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

8+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

14+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

13+阅读 · 6月14日

《关键任务型人工智能的可靠性》

《关键任务型人工智能的可靠性》

专知会员服务

20+阅读 · 4月9日

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

30+阅读 · 2025年12月13日

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

35+阅读 · 2025年9月16日

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

专知会员服务

20+阅读 · 2025年6月15日

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

【NTU博士论文】从小型深度神经网络到大型语言模型：构建可信 AI 的软件工程视角

专知会员服务

20+阅读 · 2025年5月7日

《基于智能体的无人机蜂群在人工智能攻击下的风险分析》博士论文

《基于智能体的无人机蜂群在人工智能攻击下的风险分析》博士论文

专知会员服务

65+阅读 · 2024年3月10日

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

专知会员服务

31+阅读 · 2024年2月7日

【MIT博士论文】可靠机器学习模型部署，279页pdf

【MIT博士论文】可靠机器学习模型部署，279页pdf

专知会员服务

56+阅读 · 2023年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

如何构建「可信任的深度学习」？美国三院院士UCLA数学泰斗Stanley Osher教授这44页ppt为你讲述

专知

13+阅读 · 2020年3月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【综述】医疗可解释人工智能综述论文

【综述】医疗可解释人工智能综述论文

专知

33+阅读 · 2019年7月18日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

年度必读：2018最具突破性人工智能论文Top 10

年度必读：2018最具突破性人工智能论文Top 10

机器学习算法与Python学习

11+阅读 · 2018年12月2日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

相关论文

Model Validation of Agentic AI Systems: A POMDP-Based Framework for Belief-State, Forecast, and Policy Validation

Arxiv

0+阅读 · 6月16日

From Agent Traces to Trust: A Survey of Evidence Tracing and Execution Provenance in LLM Agents

Arxiv

0+阅读 · 6月14日

Assistance to Autonomy: A Systematic Literature Review of Agentic AI across the Software Development Life Cycle

Arxiv

0+阅读 · 6月13日

How AI Agents Reshape Knowledge Work: Autonomy, Efficiency, and Scope

Arxiv

0+阅读 · 6月5日

From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

Arxiv

0+阅读 · 6月4日

From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents

Arxiv

0+阅读 · 6月3日

Mechanism Plausibility in Generative Agent-Based Modeling

Arxiv

0+阅读 · 5月17日

Towards Trustworthy and Explainable AI for Perception Models: From Concept to Prototype Vehicle Deployment

Arxiv

0+阅读 · 5月15日

Upholding Epistemic Agency: A Brouwerian Assertibility Constraint for Responsible AI

Arxiv

0+阅读 · 5月9日

Quantifying Trust: Financial Risk Management for Trustworthy AI Agents

Arxiv

0+阅读 · 5月4日

微信扫码咨询专知VIP会员