AI agents are moving from advisors to actors, booking travel, planning menus, and running procurement on behalf of users. Existing benchmarks for AI and animal welfare evaluate model text responses to question-answer prompts, leaving open whether the welfare reasoning surfaced in those responses transfers to agentic deployment where the model must take actions with tools. We introduce TAC (Travel Agent Compassion), the first agentic benchmark measuring whether AI agents avoid options involving animal exploitation when acting on behalf of users. TAC presents an AI agent with twelve hand-authored travel booking scenarios across six categories of animal exploitation, augmented to forty-eight samples to control for price, rating, and position confounds. We evaluate seven frontier models from four labs. Every model scores below the chance level of sixty-four percent, with the best performer (Claude Opus 4.7) at fifty-three percent. A single welfare-aware sentence in the system prompt yields gains of forty-seven to sixty-three percentage points in Claude and GPT-5.5, twenty-six points in GPT-5.2, and under twelve points in DeepSeek and Gemini. An auxiliary Inspect Scout audit of 288 base-condition transcripts from the top two performers, using Gemini 2.5 Flash Lite as judge, flags zero transcripts for evaluation awareness, suggesting the below-chance rates do not stem from the models recognising the evaluation. We discuss implications for category-level variation across cultural domains, the limits of text-response welfare benchmarks, and the EU General-Purpose AI Code of Practice systemic risk framework.


翻译:AI代理正从顾问转变为执行者,代表用户预订旅行、规划菜单和进行采购。现有关于AI与动物福利的基准测试评估模型对问答提示的文本回复,但未明确这些回复中浮现的福利推理能否迁移至代理部署场景(即模型必须通过工具采取行动)。我们提出TAC(旅行代理同理心),这是首个衡量AI代理在代表用户行动时是否避免涉及动物剥削选项的代理基准。TAC向AI代理呈现十二个手工编写的旅行预订场景,涵盖六类动物剥削,并扩展至四十八个样本以控制价格、评分和位置混淆因素。我们评估了来自四个实验室的七个前沿模型。所有模型得分均低于64%的随机水平,最佳表现者(Claude Opus 4.7)为53%。系统提示中单句福利感知提示使Claude和GPT-5.5提升47至63个百分点,GPT-5.2提升26个百分点,而DeepSeek和Gemini提升不足12个百分点。一项辅助性审查(使用Gemini 2.5 Flash Lite作为评判,对两个最佳模型的表现进行288条基础条件记录的审计)未发现任何记录存在评估意识,表明低于随机水平的结果并非源于模型识别出评估。我们讨论了文化领域的类别差异、文本回复福利基准的局限性,以及欧盟通用AI实践准则系统风险框架的影响。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
Al Agent:AI时代的软件革命
专知会员服务
48+阅读 · 2025年5月13日
中国AI Agent行业研究报告(二)
专知会员服务
48+阅读 · 2025年3月13日
《代理型人工智能全面指南》,45页ppt
专知会员服务
64+阅读 · 2025年2月12日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
138+阅读 · 2023年7月31日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
人工智能训练师的再定义
竹间智能Emotibot
11+阅读 · 2019年5月15日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
Al Agent:AI时代的软件革命
专知会员服务
48+阅读 · 2025年5月13日
中国AI Agent行业研究报告(二)
专知会员服务
48+阅读 · 2025年3月13日
《代理型人工智能全面指南》,45页ppt
专知会员服务
64+阅读 · 2025年2月12日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
138+阅读 · 2023年7月31日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员