关于人工智能文化表征中“厚描式评估”的论证 (The Case for "Thick Evaluations" of Cultural Representation in AI) - 专知论文

会员服务 ·

0

输出 · 情境 · 人工智能 · 操作 · 情境化 ·

The Case for "Thick Evaluations" of Cultural Representation in AI

翻译：关于人工智能文化表征中“厚描式评估”的论证

Rida Qadri,Mark Diaz,Ding Wang,Michael Madaio

from arxiv, 10 pages

Generative AI model outputs have been increasingly evaluated for their (in)ability to represent non-Western cultures. We argue that these evaluations often operate through reductive ideals of representation, abstracted from how people define their own representation and neglecting the inherently interpretive and contextual nature of cultural representation. In contrast to these 'thin' evaluations, we introduce the idea of 'thick evaluations:' a more granular, situated, and discursive measurement framework for evaluating representations of social worlds in AI outputs, steeped in communities' own understandings of representation. We develop this evaluation framework through workshops in South Asia, by studying the 'thick' ways in which people interpret and assign meaning to AI-generated images of their own cultures. We introduce practices for thicker evaluations of representation that expand the understanding of representation underpinning AI evaluations and by co-constructing metrics with communities, bringing measurement in line with the experiences of communities on the ground.

翻译：生成式人工智能模型的输出结果正日益被评估其（无法）表征非西方文化的能力。我们认为，这些评估往往通过简化的表征理想进行操作，脱离了人们如何定义自身表征的方式，并忽视了文化表征固有的解释性与情境性本质。与这些“薄描式”评估相对，我们提出“厚描式评估”的理念：一种更精细、情境化且具话语性的测量框架，用于评估人工智能输出中社会世界的表征，其根基在于社群自身对表征的理解。我们通过在南亚地区开展研讨会，研究人们对人工智能生成的自身文化图像进行诠释与意义赋予的“厚描”方式，从而发展出这一评估框架。我们引入了厚描式表征评估的实践方法，通过扩展支撑人工智能评估的表征理解，并与社群共同构建度量标准，使测量更贴近在地社群的实际经验。

0

相关内容

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

17+阅读 · 2025年7月15日

《人工智能：生成式AI的环境与人文影响》最新47页报告

《人工智能：生成式AI的环境与人文影响》最新47页报告

专知会员服务

16+阅读 · 2025年7月15日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

人工智能模型中公平性追求的综述

人工智能模型中公平性追求的综述

专知会员服务

22+阅读 · 2024年3月30日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

105+阅读 · 2023年2月19日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【斯坦福博士论文】深度生成模型的评估，126页pdf

专知会员服务

36+阅读 · 2021年7月19日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

评估出生缺陷风险的父源性表观遗传学标志物--相关印记基因筛选

国家自然科学基金

0+阅读 · 2016年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月13日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月2日

TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories

Arxiv

0+阅读 · 1月29日

Evaluating Generative AI in the Lab: Methodological Challenges and Guidelines

Arxiv

0+阅读 · 1月28日

SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems

Arxiv

0+阅读 · 1月28日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月21日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

The Conversational Exam: A Scalable Assessment Design for the AI Era

Arxiv

0+阅读 · 1月15日

Provocations from the Humanities for Generative AI Research

Arxiv

0+阅读 · 1月12日

Cultural Compass: A Framework for Organizing Societal Norms to Detect Violations in Human-AI Conversations

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

相关VIP内容

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

17+阅读 · 2025年7月15日

《人工智能：生成式AI的环境与人文影响》最新47页报告

《人工智能：生成式AI的环境与人文影响》最新47页报告

专知会员服务

16+阅读 · 2025年7月15日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

人工智能模型中公平性追求的综述

人工智能模型中公平性追求的综述

专知会员服务

22+阅读 · 2024年3月30日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

105+阅读 · 2023年2月19日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【斯坦福博士论文】深度生成模型的评估，126页pdf

专知会员服务

36+阅读 · 2021年7月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

论文盘点：人脸表情识别解析

论文盘点：人脸表情识别解析

PaperWeekly

13+阅读 · 2020年7月26日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月13日

Argument Rarity-based Originality Assessment for AI-Assisted Writing

Arxiv

0+阅读 · 2月2日

TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories

Arxiv

0+阅读 · 1月29日

Evaluating Generative AI in the Lab: Methodological Challenges and Guidelines

Arxiv

0+阅读 · 1月28日

SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems

Arxiv

0+阅读 · 1月28日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月21日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

The Conversational Exam: A Scalable Assessment Design for the AI Era

Arxiv

0+阅读 · 1月15日

Provocations from the Humanities for Generative AI Research

Arxiv

0+阅读 · 1月12日

Cultural Compass: A Framework for Organizing Societal Norms to Detect Violations in Human-AI Conversations

Arxiv

0+阅读 · 1月12日

相关基金

评估出生缺陷风险的父源性表观遗传学标志物--相关印记基因筛选

国家自然科学基金

0+阅读 · 2016年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员