When an AI Judges Your Work: The Hidden Costs of Algorithmic Assessment - 专知论文

会员服务 ·

0

AI · 工具 · 算法 · 语言模型 · 包含 ·

When an AI Judges Your Work: The Hidden Costs of Algorithmic Assessment

翻译：当AI评判你的工作：算法评估的隐性成本

David Almog,Lucas Lippman,Daniel Martin

We use an online experiment with a real work task to study whether workers change their behavior when they know AI will be used to judge their work instead of humans. We find that individuals produce a higher quantity of output when they are assigned an AI evaluator. However, controlling for quantity, the quality of their output is lower, regardless of whether quality is measured using humans or LLM grades. We also find that workers are more likely to use external tools, including LLMs, when they know AI is used to judge their work instead of humans. However, the increase in external tool use does not appear to explain the differences in quantity or quality across treatments.

翻译：我们通过一项包含真实工作任务的在线实验，研究当工作者得知其工作将由AI而非人类进行评判时，是否会改变自身行为。研究发现，当受试者被分配AI评估者时，其产出数量更高。然而，在控制产出数量的条件下，无论使用人类评分还是大语言模型评分来衡量质量，其产出质量均较低。我们还发现，当工作者得知工作由AI而非人类评判时，他们更倾向于使用外部工具（包括大语言模型）。但外部工具使用率的增加似乎并不能解释不同实验组在产出数量或质量上的差异。

0

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

专知会员服务

54+阅读 · 2025年1月5日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《人工智能辅助决策面临的三大挑战》

《人工智能辅助决策面临的三大挑战》

专知会员服务

85+阅读 · 2023年12月15日

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

专知会员服务

82+阅读 · 2023年2月22日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

45K！刚面完 AI 岗，这几点分享给你！

45K！刚面完 AI 岗，这几点分享给你！

AI100

17+阅读 · 2018年12月18日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

年薪 25 万的 AI 工程师仅仅是白菜价？未来这五个高薪岗位才是发展方向

年薪 25 万的 AI 工程师仅仅是白菜价？未来这五个高薪岗位才是发展方向

EGONetworks

15+阅读 · 2017年11月25日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma

Arxiv

0+阅读 · 3月17日

Delegation and Verification Under AI

Arxiv

0+阅读 · 3月3日

Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark

Arxiv

0+阅读 · 3月1日

"I think this is fair": Uncovering the Complexities of Stakeholder Decision-Making in AI Fairness Assessment

Arxiv

0+阅读 · 2月26日

Capabilities Ain't All You Need: Measuring Propensities in AI

Arxiv

0+阅读 · 2月25日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月22日

Towards More Standardized AI Evaluation: From Models to Agents

Arxiv

0+阅读 · 2月20日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月8日

How AI Impacts Skill Formation

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

0+阅读 · 2分钟前

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

0+阅读 · 10分钟前

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

3+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

8+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

11+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

18+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

专知会员服务

18+阅读 · 2025年7月15日

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

如何做好AI研究？哈佛大学Pranav教授《AI研究经验》手册，259页pdf

专知会员服务

54+阅读 · 2025年1月5日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《人工智能辅助决策面临的三大挑战》

《人工智能辅助决策面临的三大挑战》

专知会员服务

85+阅读 · 2023年12月15日

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

专知会员服务

82+阅读 · 2023年2月22日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

45K！刚面完 AI 岗，这几点分享给你！

45K！刚面完 AI 岗，这几点分享给你！

AI100

17+阅读 · 2018年12月18日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

年薪 25 万的 AI 工程师仅仅是白菜价？未来这五个高薪岗位才是发展方向

年薪 25 万的 AI 工程师仅仅是白菜价？未来这五个高薪岗位才是发展方向

EGONetworks

15+阅读 · 2017年11月25日

相关论文

Real-World AI Evaluation: How FRAME Generates Systematic Evidence to Resolve the Decision-Maker's Dilemma

Arxiv

0+阅读 · 3月17日

Delegation and Verification Under AI

Arxiv

0+阅读 · 3月3日

Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark

Arxiv

0+阅读 · 3月1日

"I think this is fair": Uncovering the Complexities of Stakeholder Decision-Making in AI Fairness Assessment

Arxiv

0+阅读 · 2月26日

Capabilities Ain't All You Need: Measuring Propensities in AI

Arxiv

0+阅读 · 2月25日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月22日

Towards More Standardized AI Evaluation: From Models to Agents

Arxiv

0+阅读 · 2月20日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

Humanizing AI Grading: Student-Centered Insights on Fairness, Trust, Consistency and Transparency

Arxiv

0+阅读 · 2月8日

How AI Impacts Skill Formation

Arxiv

0+阅读 · 2月1日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

基于深度学习的四元数小波彩色图像质量评价及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员