Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma - 专知论文

会员服务 ·

0

系统 · 度量 · 异质 · 异质性 · 人工智能系统 ·

Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma

翻译：真实世界人工智能评估：FRAME如何生成系统性证据以解决决策者的困境

Reva Schwartz,Gabriella Waters

from arxiv, 19 pages, 4 tables, 5 figures

The rapid expansion of AI deployments has put organizational leaders in a decision maker's dilemma: they must govern these technologies without systematic evidence of how systems behave in their own environments. Predominant evaluation methods generate scalable, abstract measures of model capabilities but smooth over the heterogeneity of real world use, while user focused testing reveals rich contextual detail yet remains small in scale and loosely coupled to the mechanisms that shape model behavior. The Forum for Real World AI Measurement and Evaluation (FRAME) addresses this gap by combining large scale trials of AI systems with structured observation of how they are used in context, the outcomes they generate, and how those outcomes arise. By tracing the path from an AI system's output through its practical use and downstream effects, FRAME turns the heterogeneity of AI in use into a measurable signal rather than a trade off for achieving scale. FRAME establishes two core assets to accomplish this: a Testing Sandbox that captures AI use under real workflows at scale and a Metrics Hub that translates those traces into actionable indicators.

翻译：人工智能部署的快速扩张使组织领导者陷入决策者困境：他们必须在缺乏系统证据的情况下治理这些技术，无法确知系统在自身环境中的实际行为。主流评估方法虽能生成可扩展的模型能力抽象度量，却掩盖了现实应用场景的异质性；而以用户为中心的测试虽能揭示丰富的上下文细节，却规模有限且与塑造模型行为的机制耦合松散。真实世界人工智能测量与评估论坛（FRAME）通过结合大规模人工智能系统试验与结构化观察——涵盖其情境化使用方式、产生的实际结果及其形成机制——来弥合这一鸿沟。通过追踪人工智能系统输出经实际应用至下游影响的完整路径，FRAME将使用中人工智能的异质性转化为可测量信号，而非实现规模化的妥协代价。为此，FRAME构建了两大核心资产：可大规模捕捉真实工作流中人工智能使用状态的测试沙盒，以及将这些轨迹转化为可操作指标的度量中心。

0

相关内容

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

19+阅读 · 4月27日

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

专知会员服务

37+阅读 · 1月7日

《人工智能治理实施的挑战与应对策略：系统性文献综述》最新97页

《人工智能治理实施的挑战与应对策略：系统性文献综述》最新97页

专知会员服务

24+阅读 · 2025年7月24日

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

专知会员服务

27+阅读 · 2025年4月14日

《提高决策支持系统透明度的可解释人工智能》最新100页

《提高决策支持系统透明度的可解释人工智能》最新100页

专知会员服务

51+阅读 · 2024年11月28日

《智能机器时代的OODA环自动化：重申人类在数字时代指挥和控制决策中的作用》2022最新25页论文

《智能机器时代的OODA环自动化：重申人类在数字时代指挥和控制决策中的作用》2022最新25页论文

专知会员服务

104+阅读 · 2022年11月5日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

96+阅读 · 2022年1月30日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

39+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

117+阅读 · 2022年9月1日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

82+阅读 · 2022年8月29日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 4月28日

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Arxiv

0+阅读 · 4月13日

Scheming in the wild: detecting real-world AI scheming incidents with open-source intelligence

Arxiv

0+阅读 · 4月10日

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 3月20日

Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference

Arxiv

0+阅读 · 3月19日

From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

Arxiv

0+阅读 · 3月19日

Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma

Arxiv

0+阅读 · 3月18日

Evasive Intelligence: Lessons from Malware Analysis for Evaluating AI Agents

Arxiv

0+阅读 · 3月16日

AI Phenomenology for Understanding Human-AI Experiences Across Eras

Arxiv

0+阅读 · 3月9日

Understanding the Effects of AI-Assisted Critical Thinking on Human-AI Decision Making

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

人工智能系统

最新内容

Nature三连发AI自主科学发现论文

Nature三连发AI自主科学发现论文

专知会员服务

0+阅读 · 今天14:19

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

0+阅读 · 今天14:13

安杜里尔与人工智能驱动防务的崛起

安杜里尔与人工智能驱动防务的崛起

专知会员服务

10+阅读 · 今天8:08

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

专知会员服务

12+阅读 · 今天8:05

《Palantir对联合全域指挥控制（JADC2）的支持能力》

《Palantir对联合全域指挥控制（JADC2）的支持能力》

专知会员服务

11+阅读 · 今天8:03

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

专知会员服务

9+阅读 · 今天7:57

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

专知会员服务

12+阅读 · 今天7:50

《Palantir平台：FOUNDRY与AIP服务定义文档》

《Palantir平台：FOUNDRY与AIP服务定义文档》

专知会员服务

9+阅读 · 今天7:45

2025年科学计算行业发展研究报告

2025年科学计算行业发展研究报告

专知会员服务

7+阅读 · 5月20日

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

【ICML 2026】从看见到思考：解耦感知与推理，改进视觉语言模型后训练

专知会员服务

5+阅读 · 5月20日

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

专知会员服务

7+阅读 · 5月20日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

10+阅读 · 5月20日

《零和搜索与规避博弈在反潜战中的应用》80页报告

《零和搜索与规避博弈在反潜战中的应用》80页报告

专知会员服务

10+阅读 · 5月20日

《特种部队山地作战：一项战略要务》230页报告

《特种部队山地作战：一项战略要务》230页报告

专知会员服务

6+阅读 · 5月20日

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

专知会员服务

5+阅读 · 5月20日

相关VIP内容

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

19+阅读 · 4月27日

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

《实现对基于人工智能系统的有意义人类控制的人机系统集成》最新128页报告

专知会员服务

37+阅读 · 1月7日

《人工智能治理实施的挑战与应对策略：系统性文献综述》最新97页

《人工智能治理实施的挑战与应对策略：系统性文献综述》最新97页

专知会员服务

24+阅读 · 2025年7月24日

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

专知会员服务

27+阅读 · 2025年4月14日

《提高决策支持系统透明度的可解释人工智能》最新100页

《提高决策支持系统透明度的可解释人工智能》最新100页

专知会员服务

51+阅读 · 2024年11月28日

《智能机器时代的OODA环自动化：重申人类在数字时代指挥和控制决策中的作用》2022最新25页论文

《智能机器时代的OODA环自动化：重申人类在数字时代指挥和控制决策中的作用》2022最新25页论文

专知会员服务

104+阅读 · 2022年11月5日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

96+阅读 · 2022年1月30日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】大型音频语言模型综述：泛化、可信与未来展望

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

Nature三连发AI自主科学发现论文

安杜里尔与人工智能驱动防务的崛起

相关资讯

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

39+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

117+阅读 · 2022年9月1日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

82+阅读 · 2022年8月29日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

相关论文

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 4月28日

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Arxiv

0+阅读 · 4月13日

Scheming in the wild: detecting real-world AI scheming incidents with open-source intelligence

Arxiv

0+阅读 · 4月10日

Towards Real-World Validity in Generative AI Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners

Arxiv

0+阅读 · 3月20日

Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference

Arxiv

0+阅读 · 3月19日

From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

Arxiv

0+阅读 · 3月19日

Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma

Arxiv

0+阅读 · 3月18日

Evasive Intelligence: Lessons from Malware Analysis for Evaluating AI Agents

Arxiv

0+阅读 · 3月16日

AI Phenomenology for Understanding Human-AI Experiences Across Eras

Arxiv

0+阅读 · 3月9日

Understanding the Effects of AI-Assisted Critical Thinking on Human-AI Decision Making

Arxiv

0+阅读 · 3月2日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员