PersonalHomeBench: Evaluating Agents in Personalized Smart Homes - 专知论文

会员服务 ·

0

基准 · 智能家居 · 系统 · 工具 · 智能体 ·

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

翻译：PersonalHomeBench：在个性化智能家居中的智能体评估基准

Nikhil Verma,InJung Yang,Sungil Kim,KoKeun Kim,YoungJoon Kim,Manasa Bharadwaj,Yolanda Liu,Kevin Ferreira

from arxiv, In light of concerns regarding authorship order, contributions, and affiliations in the current arXiv submission, I request to withdraw the manuscript temporarily to enable proper alignment among all contributors

Agentic AI systems are rapidly advancing toward real-world applications, yet their readiness in complex and personalized environments remains insufficiently characterized. To address this gap, we introduce PersonalHomeBench, a benchmark for evaluating foundation models as agentic assistants in personalized smart home environments. The benchmark is constructed through an iterative process that progressively builds rich household states, which are then used to generate personalized, context-dependent tasks. To support realistic agent-environment interaction, we provide PersonalHomeTools, a comprehensive toolbox enabling household information retrieval, appliance control, and situational understanding. PersonalHomeBench evaluates both reactive and proactive agentic abilities under unimodal and multimodal observations. Thorough experimentation reveals a systematic performance reduction as task complexity increases, with pronounced failures in counterfactual reasoning and under partial observability, where effective tool-based information gathering is required. These results position PersonalHomeBench as a rigorous evaluation platform for analyzing the robustness and limitations of personalized agentic reasoning and planning.

翻译：智能体人工智能系统正在快速向实际应用场景推进，但其在复杂个性化环境中的准备程度仍缺乏充分表征。为填补这一空白，我们提出PersonalHomeBench——一个用于评估基础模型在个性化智能家居环境中作为智能体助手的基准。该基准通过迭代构建流程逐步生成丰富的家庭状态，并基于这些状态生成个性化、依赖上下文的待办任务。为支持真实的智能体-环境交互，我们提供PersonalHomeTools工具箱，该工具箱具备家庭信息检索、设备控制及情境理解等综合功能。PersonalHomeBench在单模态与多模态观测条件下评估智能体的响应式与主动式能力。全面实验表明，随着任务复杂度增加，系统性能呈现系统性下降，尤其在反事实推理与部分可观测性场景中表现显著不足——此类场景要求智能体具备基于工具的高效信息采集能力。这些结果将PersonalHomeBench定位为分析个性化智能体推理与规划鲁棒性及局限性的严谨评估平台。

0

相关内容

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

27+阅读 · 2025年12月11日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

50+阅读 · 2025年7月31日

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

香港个人资料私隐专员公署2021年【开发及使用人工智能道德标准指引】

香港个人资料私隐专员公署2021年【开发及使用人工智能道德标准指引】

专知会员服务

13+阅读 · 2022年2月17日

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

专知

17+阅读 · 2022年3月19日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于主题网络的用户内在兴趣发现及演进研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于智能手机的个体活动链信息获取及挖掘方法

国家自然科学基金

1+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 5月13日

Fair Agents: Balancing Multistakeholder Alignment in Multi-Agent Personalization Systems

Fair Agents: Balancing Multistakeholder Alignment in Multi-Agent Personalization Systems

Arxiv

0+阅读 · 5月4日

HearthNet: Edge Multi-Agent Orchestration for Smart Homes

Arxiv

0+阅读 · 4月28日

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 4月18日

PAL: Personal Adaptive Learner

Arxiv

0+阅读 · 4月14日

PeReGrINE: Evaluating Personalized Review Fidelity with User Item Graph Context

Arxiv

0+阅读 · 4月9日

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

Arxiv

0+阅读 · 4月6日

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Arxiv

0+阅读 · 4月1日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

0+阅读 · 9分钟前

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

0+阅读 · 11分钟前

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

1+阅读 · 41分钟前

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

1+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

1+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

1+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

27+阅读 · 2025年12月11日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

50+阅读 · 2025年7月31日

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

香港个人资料私隐专员公署2021年【开发及使用人工智能道德标准指引】

香港个人资料私隐专员公署2021年【开发及使用人工智能道德标准指引】

专知会员服务

13+阅读 · 2022年2月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《伊朗与以色列-美国热战及其对数字技术的影响》

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

相关资讯

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

专知

17+阅读 · 2022年3月19日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 5月13日

Fair Agents: Balancing Multistakeholder Alignment in Multi-Agent Personalization Systems

Fair Agents: Balancing Multistakeholder Alignment in Multi-Agent Personalization Systems

Arxiv

0+阅读 · 5月4日

HearthNet: Edge Multi-Agent Orchestration for Smart Homes

Arxiv

0+阅读 · 4月28日

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 4月18日

PAL: Personal Adaptive Learner

Arxiv

0+阅读 · 4月14日

PeReGrINE: Evaluating Personalized Review Fidelity with User Item Graph Context

Arxiv

0+阅读 · 4月9日

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

Arxiv

0+阅读 · 4月6日

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Arxiv

0+阅读 · 4月1日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

相关基金

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于主题网络的用户内在兴趣发现及演进研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于智能手机的个体活动链信息获取及挖掘方法

国家自然科学基金

1+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员