Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation - 专知论文

会员服务 ·

0

正确性 · 置信度 · AI · 人工智能产品 · 系统 ·

Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation

翻译：功能正确性的统计置信度：一种人工智能产品功能正确性评估方法

Wallace Albertini,Marina Condé Araújo,Júlia Condé Araújo,Antonio Pedro Santos Alves,Marcos Kalinowski

from arxiv, Author version of the paper accepted for publication at CAIN 2026

The quality assessment of Artificial Intelligence (AI) systems is a fundamental challenge due to their inherently probabilistic nature. Standards such as ISO/IEC 25059 provide a quality model, but they lack practical and statistically robust methods for assessing functional correctness. This paper proposes and evaluates the Statistical Confidence in Functional Correctness (SCFC) approach, which seeks to fill this gap by connecting business requirements to a measure of statistical confidence that considers both the model's average performance and its variability. The approach consists of four steps: defining quantitative specification limits, performing stratified and probabilistic sampling, applying bootstrapping to estimate a confidence interval for the performance metric, and calculating a capability index as a final indicator. The approach was evaluated through a case study on two real-world AI systems in industry involving interviews with AI experts. Valuable insights were collected from the experts regarding the utility, ease of use, and intention to adopt the methodology in practical scenarios. We conclude that the proposed approach is a feasible and valuable way to operationalize the assessment of functional correctness, moving the evaluation from a point estimate to a statement of statistical confidence.

翻译：人工智能（AI）系统的质量评估因其固有的概率性本质而成为一个根本性挑战。诸如ISO/IEC 25059等标准提供了质量模型，但缺乏用于评估功能正确性的实用且统计稳健的方法。本文提出并评估了功能正确性统计置信度（SCFC）方法，旨在通过将业务需求与一个同时考虑模型平均性能及其变异性的统计置信度度量联系起来，以填补这一空白。该方法包含四个步骤：定义量化规格限、执行分层与概率抽样、应用自助法估计性能指标的置信区间，以及计算能力指数作为最终指标。该方法通过对两个工业界真实AI系统的案例研究，并结合对AI专家的访谈进行了评估。我们从专家处收集了关于该方法在实际场景中的实用性、易用性及采纳意愿的宝贵见解。我们得出结论，所提出的方法是实现功能正确性评估操作化的一种可行且有价值的途径，将评估从点估计推进到统计置信度的表述。

0

相关内容

正确性

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

《提高决策支持系统透明度的可解释人工智能》最新100页

《提高决策支持系统透明度的可解释人工智能》最新100页

专知会员服务

51+阅读 · 2024年11月28日

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

专知会员服务

30+阅读 · 2024年2月7日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

76+阅读 · 2023年7月4日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

96+阅读 · 2022年1月30日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

116+阅读 · 2022年9月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 3月16日

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Arxiv

0+阅读 · 3月9日

Capabilities Ain't All You Need: Measuring Propensities in AI

Arxiv

0+阅读 · 2月25日

The Illusion of Human AI Parity Under Uncertainty: Navigating Elusive Ground Truth via a Probabilistic Paradigm

Arxiv

0+阅读 · 2月23日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月22日

Towards More Standardized AI Evaluation: From Models to Agents

Arxiv

0+阅读 · 2月20日

From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems

Arxiv

0+阅读 · 2月13日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月8日

Prescriptive Artificial Intelligence: A Formal Paradigm for Auditing Human Decisions Under Uncertainty

Arxiv

0+阅读 · 2月8日

Structural Enforcement of Statistical Rigor in AI-Driven Discovery: A Functional Architecture

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

人工智能产品

最新内容

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

2+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

2+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

7+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

17+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

相关VIP内容

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

《提高决策支持系统透明度的可解释人工智能》最新100页

《提高决策支持系统透明度的可解释人工智能》最新100页

专知会员服务

51+阅读 · 2024年11月28日

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

【博士论文】可信赖的人工智能：确保可解释性和接受度，175页pdf

专知会员服务

30+阅读 · 2024年2月7日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

76+阅读 · 2023年7月4日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

96+阅读 · 2022年1月30日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

116+阅读 · 2022年9月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

相关论文

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 3月16日

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Arxiv

0+阅读 · 3月9日

Capabilities Ain't All You Need: Measuring Propensities in AI

Arxiv

0+阅读 · 2月25日

The Illusion of Human AI Parity Under Uncertainty: Navigating Elusive Ground Truth via a Probabilistic Paradigm

Arxiv

0+阅读 · 2月23日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月22日

Towards More Standardized AI Evaluation: From Models to Agents

Arxiv

0+阅读 · 2月20日

From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems

Arxiv

0+阅读 · 2月13日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月8日

Prescriptive Artificial Intelligence: A Formal Paradigm for Auditing Human Decisions Under Uncertainty

Arxiv

0+阅读 · 2月8日

Structural Enforcement of Statistical Rigor in AI-Driven Discovery: A Functional Architecture

Arxiv

0+阅读 · 2月6日

相关基金

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员