迷失于模拟：在智能体评估中，LLM模拟用户并非人类用户的可靠代理 (Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations) - 专知论文

会员服务 ·

0

智能体 · 鲁棒 · 大语言模型 · 基准 · 基准测试 ·

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

翻译：迷失于模拟：在智能体评估中，LLM模拟用户并非人类用户的可靠代理

Preethi Seshadri,Samuel Cahyawijaya,Ayomide Odumakinde,Sameer Singh,Seraphina Goldfarb-Tarrant

Agentic benchmarks increasingly rely on LLM-simulated users to scalably evaluate agent performance, yet the robustness, validity, and fairness of this approach remain unexamined. Through a user study with participants across the United States, India, Kenya, and Nigeria, we investigate whether LLM-simulated users serve as reliable proxies for real human users in evaluating agents on τ-Bench retail tasks. We find that user simulation lacks robustness, with agent success rates varying up to 9 percentage points across different user LLMs. Furthermore, evaluations using simulated users exhibit systematic miscalibration, underestimating agent performance on challenging tasks and overestimating it on moderately difficult ones. African American Vernacular English (AAVE) speakers experience consistently worse success rates and calibration errors than Standard American English (SAE) speakers, with disparities compounding significantly with age. We also find simulated users to be a differentially effective proxy for different populations, performing worst for AAVE and Indian English speakers. Additionally, simulated users introduce conversational artifacts and surface different failure patterns than human users. These findings demonstrate that current evaluation practices risk misrepresenting agent capabilities across diverse user populations and may obscure real-world deployment challenges.

翻译：智能体基准测试日益依赖LLM模拟用户来扩展评估智能体性能，然而这种方法的鲁棒性、有效性和公平性尚未得到检验。通过一项涵盖美国、印度、肯尼亚和尼日利亚参与者的用户研究，我们探究了在τ-Bench零售任务评估中，LLM模拟用户是否能作为真实人类用户的可靠代理。研究发现用户模拟缺乏鲁棒性——不同用户LLM之间的智能体成功率差异高达9个百分点。此外，使用模拟用户的评估存在系统性校准偏差：在挑战性任务中低估智能体性能，在中等难度任务中则高估其表现。与非裔美国人白话英语（AAVE）使用者相比，标准美式英语（SAE）使用者的成功率持续偏低且校准误差更大，这种差异随年龄增长显著加剧。研究还发现模拟用户对不同人群的代理效能存在差异，对AAVE和印度英语使用者的代理效果最差。同时，模拟用户会引入对话伪影，并呈现出与人类用户不同的故障模式。这些发现表明，当前的评估实践可能扭曲智能体在不同用户群体中的能力表征，并掩盖实际部署中的挑战。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

基于大语言模型智能体的社会认知模拟

基于大语言模型智能体的社会认知模拟

专知会员服务

13+阅读 · 2月22日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

36+阅读 · 2025年9月30日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

52+阅读 · 2025年8月26日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

32+阅读 · 2025年4月23日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

PaperWeekly

19+阅读 · 2023年4月13日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

PaperWeekly

21+阅读 · 2019年9月5日

我跑了ERNIE和BERT两个模型，结果出乎意料......

我跑了ERNIE和BERT两个模型，结果出乎意料......

PaperWeekly

21+阅读 · 2019年6月24日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

人工神经网络是否模拟了人类大脑？

人工神经网络是否模拟了人类大脑？

数说工作室

10+阅读 · 2017年7月19日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

双群体涌现的智能虚拟根系建模与仿真研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

Arxiv

0+阅读 · 2月17日

AD-Bench: A Real-World, Trajectory-Aware Advertising Analytics Benchmark for LLM Agents

Arxiv

0+阅读 · 2月15日

Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Arxiv

0+阅读 · 2月8日

Position: The Real Barrier to LLM Agent Usability is Agentic ROI

Arxiv

0+阅读 · 2月5日

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Arxiv

0+阅读 · 1月29日

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

Arxiv

0+阅读 · 1月28日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling

Arxiv

0+阅读 · 1月21日

User Perceptions vs. Proxy LLM Judges: Privacy and Helpfulness in LLM Responses to Privacy-Sensitive Scenarios

Arxiv

0+阅读 · 1月15日

Towards Verifiably Safe Tool Use for LLM Agents

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

基于大语言模型智能体的社会认知模拟

基于大语言模型智能体的社会认知模拟

专知会员服务

13+阅读 · 2月22日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

36+阅读 · 2025年9月30日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

52+阅读 · 2025年8月26日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

32+阅读 · 2025年4月23日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

PaperWeekly

19+阅读 · 2023年4月13日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

PaperWeekly

21+阅读 · 2019年9月5日

我跑了ERNIE和BERT两个模型，结果出乎意料......

我跑了ERNIE和BERT两个模型，结果出乎意料......

PaperWeekly

21+阅读 · 2019年6月24日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

人工神经网络是否模拟了人类大脑？

人工神经网络是否模拟了人类大脑？

数说工作室

10+阅读 · 2017年7月19日

相关论文

In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations

Arxiv

0+阅读 · 2月17日

AD-Bench: A Real-World, Trajectory-Aware Advertising Analytics Benchmark for LLM Agents

Arxiv

0+阅读 · 2月15日

Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Arxiv

0+阅读 · 2月8日

Position: The Real Barrier to LLM Agent Usability is Agentic ROI

Arxiv

0+阅读 · 2月5日

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Arxiv

0+阅读 · 1月29日

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

Arxiv

0+阅读 · 1月28日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling

Arxiv

0+阅读 · 1月21日

User Perceptions vs. Proxy LLM Judges: Privacy and Helpfulness in LLM Responses to Privacy-Sensitive Scenarios

Arxiv

0+阅读 · 1月15日

Towards Verifiably Safe Tool Use for LLM Agents

Arxiv

0+阅读 · 1月12日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

双群体涌现的智能虚拟根系建模与仿真研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员