AI-Assisted Systematization for Evaluating GenAI Systems - 专知论文

会员服务 ·

0

系统 · AI · AI系统 · 结构 · 结构化 ·

AI-Assisted Systematization for Evaluating GenAI Systems

翻译：AI辅助的系统化方法用于评估生成式AI系统

Dhruv Agarwal,Emily Sheng,Chad Atalla,Jean Garcia-Gathright,Hussein Mozannar,Hannah Washington,Alexandra Chouldechova,Solon Barocas,Hanna Wallach

Evaluating generative AI (GenAI) systems is challenging because many targets of evaluation are broad, contested concepts, such as "reasoning," "fairness," or "creativity." When these concepts are left underspecified, it becomes unclear what should be measured or how evaluation results should be interpreted. This problem reflects a missing step: systematization, that is, moving from a broad background concept to an explicit, structured account of the concept in measurable terms. To help address the fact that systematization is cognitively demanding and resource-intensive, we investigate whether AI assistance can support this process. To enable AI-assisted systematization and assess its quality, we introduce a structured representation of a systematized concept, a concept spec, and a validation worksheet. We then develop two AI-assisted systematizers: a direct, zero-shot approach and a multi-agent approach that more closely mirrors manual systematization approaches from existing literature. We use these systematizers to produce concept specs for two concepts -- hate-based rhetoric and digital empathy -- and evaluate resulting concept specs on content validity and information recoverability.

翻译：评估生成式AI（GenAI）系统具有挑战性，因为许多评估目标（如“推理能力”、“公平性”或“创造性”）是宽泛且存在争议的概念。当这些概念定义不够明确时，测量对象以及评估结果的解读方式便难以清晰界定。这一问题揭示了缺失的关键步骤——系统化，即从宽泛的背景概念出发，将其转化为以可量化术语表述的显式结构化概念。为应对系统化过程对认知能力和资源的高要求，我们探究AI辅助能否支持这一流程。为实现AI辅助的系统化并评估其质量，我们引入了结构化概念表征——概念规范（concept spec）及验证工作表。随后我们开发了两种AI辅助系统化工具：直接零样本方法，以及更贴近现有文献中手动系统化方法的多智能体方法。我们利用这些系统化工具针对“仇恨言论”和“数字共情”两个概念生成概念规范，并从内容效度和信息可恢复性两个维度评估最终概念规范的质量。

0

相关内容

哈佛最新《面向系统设计的生成式 AI：从软件到硅片的重复性挑战与设计原则》

哈佛最新《面向系统设计的生成式 AI：从软件到硅片的重复性挑战与设计原则》

专知会员服务

16+阅读 · 3月3日

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

17+阅读 · 2025年11月10日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

26+阅读 · 2025年5月16日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

生成式人工智能在交通规划中的应用：综述

生成式人工智能在交通规划中的应用：综述

专知会员服务

17+阅读 · 2025年3月15日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

49+阅读 · 2023年9月20日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于复杂系统理论的服务生态系统演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于多层网络智能体分析的银行业系统风险研究：形成、传染与救助策略

国家自然科学基金

0+阅读 · 2015年12月31日

基于计算智能的心系基础证量化诊断方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Generative AI for Managerial Decision-Making under Ambiguity and Sycophancy

Arxiv

0+阅读 · 6月11日

Adoption of Generative Artificial Intelligence in the German Software Engineering Industry: An Empirical Study

Arxiv

0+阅读 · 6月9日

Quantifying Perception-Based Student Success with Generative AI: An Exploratory Monte Carlo Simulation

Arxiv

0+阅读 · 6月9日

The Comparative Trap: How Social Comparison Orientation Drives Problematic Generative AI (GenAI) Use

Arxiv

0+阅读 · 6月2日

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Arxiv

0+阅读 · 6月1日

Access Timing as Scaffolding: A Reinforcement Learning Approach to GenAI in Education

Arxiv

0+阅读 · 5月26日

Generative AI as a Design Variable: An Evidence-Centered Framework for Principled Governance in STEM Assessment

Arxiv

0+阅读 · 5月24日

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

Arxiv

0+阅读 · 5月22日

Locational Pricing for Generative-AI Services via Token-Flow Market Clearing

Arxiv

0+阅读 · 5月9日

L-PRISMA: An Extension of PRISMA in the Era of Generative Artificial Intelligence (GenAI)

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

哈佛最新《面向系统设计的生成式 AI：从软件到硅片的重复性挑战与设计原则》

哈佛最新《面向系统设计的生成式 AI：从软件到硅片的重复性挑战与设计原则》

专知会员服务

16+阅读 · 3月3日

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

17+阅读 · 2025年11月10日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

26+阅读 · 2025年5月16日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

生成式人工智能在交通规划中的应用：综述

生成式人工智能在交通规划中的应用：综述

专知会员服务

17+阅读 · 2025年3月15日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

49+阅读 · 2023年9月20日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Generative AI for Managerial Decision-Making under Ambiguity and Sycophancy

Arxiv

0+阅读 · 6月11日

Adoption of Generative Artificial Intelligence in the German Software Engineering Industry: An Empirical Study

Arxiv

0+阅读 · 6月9日

Quantifying Perception-Based Student Success with Generative AI: An Exploratory Monte Carlo Simulation

Arxiv

0+阅读 · 6月9日

The Comparative Trap: How Social Comparison Orientation Drives Problematic Generative AI (GenAI) Use

Arxiv

0+阅读 · 6月2日

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Arxiv

0+阅读 · 6月1日

Access Timing as Scaffolding: A Reinforcement Learning Approach to GenAI in Education

Arxiv

0+阅读 · 5月26日

Generative AI as a Design Variable: An Evidence-Centered Framework for Principled Governance in STEM Assessment

Arxiv

0+阅读 · 5月24日

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

Arxiv

0+阅读 · 5月22日

Locational Pricing for Generative-AI Services via Token-Flow Market Clearing

Arxiv

0+阅读 · 5月9日

L-PRISMA: An Extension of PRISMA in the Era of Generative Artificial Intelligence (GenAI)

Arxiv

0+阅读 · 1月6日

相关基金

基于复杂系统理论的服务生态系统演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于多层网络智能体分析的银行业系统风险研究：形成、传染与救助策略

国家自然科学基金

0+阅读 · 2015年12月31日

基于计算智能的心系基础证量化诊断方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员