Principles and Guidelines for Randomized Controlled Trials in AI Evaluation - 专知论文

会员服务 ·

0

指南 · 试验 · 透明度 · 人工智能 · 软件 ·

Principles and Guidelines for Randomized Controlled Trials in AI Evaluation

翻译：人工智能评估中随机对照试验的原则与指南

Christopher Kelly,Angelica Chowdhury,Alexandra Campili,Bimpe Ayoola,Devin Barbour,Thomas Chen Dawson,Ze Shen Chin,Rokas Gipiškis

from arxiv, 27 pages, Technical AI Safety Conference

This work establishes a foundational framework for standardizing AI evaluation RCTs (sometimes called human uplift studies). Drawing on established experimental practices from disciplines with established RCT traditions, including software engineering, economics, clinical and health sciences, and psychology, we adopt the (Shadish et al., 2002) four-validity framework and extend it with a fifth principle on transparency, repeatability, and verification adapted from the Transparency and Openness Promotion (TOP) Guidelines (Center for Open Science, 2025). We operationalize all five principles into 33 guidelines adapted for AI evaluation RCT contexts, expressed as requirements with rationales, implementation instructions, and evidence bases. We position the principles and guidelines as serving three key roles for AI evaluation RCTs: a design tool for planning studies, an evaluation rubric for assessing existing work, and a blueprint for standard setting as the field converges on norms. Our framework extends prior work by centering evaluation on human performance rather than model output alone, formalizing causal inference through RCT methodology for AI contexts, integrating heterogeneity analysis and practical significance assessment, implementing a graded transparency and repeatability framework, and addressing AI-specific challenges including model versioning, human-AI interaction dynamics, contamination and spillover effects, and equitable impact assessment.

翻译：本文建立了一个用于标准化人工智能评估随机对照试验（RCT，有时称为人类提升研究）的基础框架。借鉴软件工程、经济学、临床与健康科学、心理学等具有成熟RCT传统的学科中的既定实验实践，我们采用（Shadish等，2002）四效度框架，并在此基础上扩展第五项原则——针对透明度、可重复性与可验证性，该原则改编自《透明度与开放性促进（TOP）指南》（开放科学中心，2025）。我们将全部五项原则转化为33条针对人工智能评估RCT场景的指南，以要求、理由、实施指南及证据基础的形式呈现。我们将这些原则与指南定位为服务于人工智能评估RCT的三个关键角色：研究设计的规划工具、现有工作评估的评审标准，以及该领域在规范收敛过程中进行标准制定的蓝图。我们的框架通过以下方式扩展了先前工作：以人类绩效而非仅模型输出作为评估核心；通过RCT方法论形式化人工智能场景下的因果推断；整合异质性分析与实际显著性评估；实施分级透明度与可重复性框架；以及应对人工智能特有的挑战，包括模型版本管理、人机交互动态、污染效应与溢出效应，以及公平性影响评估。

0

相关内容

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

专知会员服务

30+阅读 · 2025年10月21日

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

专知会员服务

65+阅读 · 2025年4月23日

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

专知会员服务

54+阅读 · 2025年1月5日

国家标准《人工智能知识图谱应用系统第2 部分：性能要求与测试方法》意见稿

国家标准《人工智能知识图谱应用系统第2 部分：性能要求与测试方法》意见稿

专知会员服务

30+阅读 · 2024年10月21日

国家标准《人工智能面向机器学习的系统规范（征求意见稿）》

国家标准《人工智能面向机器学习的系统规范（征求意见稿）》

专知会员服务

53+阅读 · 2024年5月25日

《人工智能系统测试与评估框架》美国防部联合人工智能中心

《人工智能系统测试与评估框架》美国防部联合人工智能中心

专知会员服务

83+阅读 · 2024年1月4日

重磅！国家标准《人工智能面向机器学习的系统技术要求》征求意见稿发布，17页pdf详细规定机器学习系统框架

重磅！国家标准《人工智能面向机器学习的系统技术要求》征求意见稿发布，17页pdf详细规定机器学习系统框架

专知会员服务

92+阅读 · 2023年5月7日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

专知

13+阅读 · 2019年4月11日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

机器学习必备手册

机器学习必备手册

机器学习研究会

19+阅读 · 2017年10月24日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

The Human-AI Delegation-Verification Dilemma: Individual Strategies, Collective Equilibria and Sociotechnical Lock-in

Arxiv

0+阅读 · 6月5日

Adaptive Influence-Based Borrowing Framework for Improving Treatment Effect Estimation in RCTs Using External Controls

Arxiv

0+阅读 · 5月3日

Responsible Evaluation of AI for Mental Health

Arxiv

0+阅读 · 4月28日

Information-Theoretic Measures in AI: A Practical Decision Guide

Arxiv

0+阅读 · 4月26日

Moving beyond Principles: Identifying Actionable AI Fairness Practices

Arxiv

0+阅读 · 4月20日

AI-assisted Protocol Information Extraction For Improved Accuracy and Efficiency in Clinical Trial Workflows

Arxiv

0+阅读 · 4月16日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

Use of AI Tools: Guidelines to Maintain Academic Integrity in Computing Colleges

Arxiv

0+阅读 · 4月13日

A Practical Guide to Interpret a Randomized Controlled Trial

Arxiv

0+阅读 · 4月10日

From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

专知会员服务

30+阅读 · 2025年10月21日

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

专知会员服务

65+阅读 · 2025年4月23日

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

专知会员服务

54+阅读 · 2025年1月5日

国家标准《人工智能知识图谱应用系统第2 部分：性能要求与测试方法》意见稿

国家标准《人工智能知识图谱应用系统第2 部分：性能要求与测试方法》意见稿

专知会员服务

30+阅读 · 2024年10月21日

国家标准《人工智能面向机器学习的系统规范（征求意见稿）》

国家标准《人工智能面向机器学习的系统规范（征求意见稿）》

专知会员服务

53+阅读 · 2024年5月25日

《人工智能系统测试与评估框架》美国防部联合人工智能中心

《人工智能系统测试与评估框架》美国防部联合人工智能中心

专知会员服务

83+阅读 · 2024年1月4日

重磅！国家标准《人工智能面向机器学习的系统技术要求》征求意见稿发布，17页pdf详细规定机器学习系统框架

重磅！国家标准《人工智能面向机器学习的系统技术要求》征求意见稿发布，17页pdf详细规定机器学习系统框架

专知会员服务

92+阅读 · 2023年5月7日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

一份来自蒙特利尔AI的人工智能技术简明指南清单（附pdf下载）

专知

13+阅读 · 2019年4月11日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

机器学习必备手册

机器学习必备手册

机器学习研究会

19+阅读 · 2017年10月24日

相关论文

The Human-AI Delegation-Verification Dilemma: Individual Strategies, Collective Equilibria and Sociotechnical Lock-in

Arxiv

0+阅读 · 6月5日

Adaptive Influence-Based Borrowing Framework for Improving Treatment Effect Estimation in RCTs Using External Controls

Arxiv

0+阅读 · 5月3日

Responsible Evaluation of AI for Mental Health

Arxiv

0+阅读 · 4月28日

Information-Theoretic Measures in AI: A Practical Decision Guide

Arxiv

0+阅读 · 4月26日

Moving beyond Principles: Identifying Actionable AI Fairness Practices

Arxiv

0+阅读 · 4月20日

AI-assisted Protocol Information Extraction For Improved Accuracy and Efficiency in Clinical Trial Workflows

Arxiv

0+阅读 · 4月16日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

Use of AI Tools: Guidelines to Maintain Academic Integrity in Computing Colleges

Arxiv

0+阅读 · 4月13日

A Practical Guide to Interpret a Randomized Controlled Trial

Arxiv

0+阅读 · 4月10日

From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

Arxiv

0+阅读 · 3月19日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员