Learning Personalized Agents from Human Feedback - 专知论文

会员服务 ·

0

智能体 · 交互 · 在线 · 基准 · 基准测试 ·

Learning Personalized Agents from Human Feedback

翻译：基于人类反馈的个性化智能体学习

Kaiqu Liang,Julia Kruk,Shengyi Qian,Xianjun Yang,Shengjie Bi,Yuanshun Yao,Shaoliang Nie,Mingyang Zhang,Lijuan Liu,Jaime Fernández Fisac,Shuyan Zhou,Saghar Hosseini

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

翻译：现代人工智能智能体功能强大，但往往难以与个体用户独特且动态变化的偏好保持一致。现有方法通常依赖于静态数据集，要么在交互历史数据上训练隐式偏好模型，要么将用户画像编码到外部记忆中。然而，这些方法在面对新用户以及偏好随时间变化时表现不佳。本文提出基于人类反馈的个性化智能体（PAHF）框架，该框架通过显式的用户专属记忆，使智能体能够在在线交互中持续学习以实现个性化。PAHF实现了一个三步循环机制：（1）通过行动前澄清以消除歧义，（2）基于从记忆中检索的偏好信息来执行行动，（3）整合行动后反馈以更新记忆，从而应对偏好漂移。为评估该能力，我们设计了一个四阶段评估协议，并在具身操作与在线购物领域构建了两个基准测试。这些基准测试量化了智能体从零开始学习初始偏好，并随后适应角色转变的能力。我们的理论分析与实验结果表明，将显式记忆与双反馈通道相结合至关重要：PAHF的学习速度显著更快，且持续优于无记忆和单通道基线方法，有效降低了初始个性化误差，并能快速适应偏好变化。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【斯坦福博士论文】具身智能体中的复杂人类偏好

【斯坦福博士论文】具身智能体中的复杂人类偏好

专知会员服务

12+阅读 · 2025年11月6日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

19+阅读 · 2025年7月1日

【斯坦福大学博士论文】个性化机器学习的理论进展

【斯坦福大学博士论文】个性化机器学习的理论进展

专知会员服务

25+阅读 · 2025年3月25日

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

专知会员服务

27+阅读 · 2025年3月20日

谷歌《智能体Agent》白皮书，42页pdf

谷歌《智能体Agent》白皮书，42页pdf

专知会员服务

108+阅读 · 2025年1月5日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

《对话式AI智能体：研究人工智能在人机交互中诱发拟人化和信任的特定特征》208页

《对话式AI智能体：研究人工智能在人机交互中诱发拟人化和信任的特定特征》208页

专知会员服务

32+阅读 · 2024年7月27日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

63+阅读 · 2024年4月16日

小样本学习报告：类人智能算法的初级形态，加速垂直场景下的AI普惠化

小样本学习报告：类人智能算法的初级形态，加速垂直场景下的AI普惠化

专知会员服务

42+阅读 · 2023年1月19日

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

专知会员服务

28+阅读 · 2020年11月20日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

基于自适应学习平台促进学生个性化学习的研究

基于自适应学习平台促进学生个性化学习的研究

MOOC

12+阅读 · 2018年4月2日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Arxiv

0+阅读 · 3月4日

Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 2月27日

Capturing Individual Human Preferences with Reward Features

Arxiv

0+阅读 · 2月19日

Effects of Personality- and Opinion-Alignment in Human-AI Interaction

Arxiv

0+阅读 · 2月17日

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月13日

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月12日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

Proactive Agents, Long-term User Context, VLM Annotation, Privacy Protection, Human-Computer Interaction

Arxiv

0+阅读 · 2月4日

Intelligent Front-End Personalization: AI-Driven UI Adaptation

Arxiv

0+阅读 · 2月3日

Feedback by Design: Understanding and Overcoming User Feedback Barriers in Conversational Agents

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

2+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

3+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

2+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

1+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

4+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

1+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

1+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【斯坦福博士论文】具身智能体中的复杂人类偏好

【斯坦福博士论文】具身智能体中的复杂人类偏好

专知会员服务

12+阅读 · 2025年11月6日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

19+阅读 · 2025年7月1日

【斯坦福大学博士论文】个性化机器学习的理论进展

【斯坦福大学博士论文】个性化机器学习的理论进展

专知会员服务

25+阅读 · 2025年3月25日

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习

专知会员服务

27+阅读 · 2025年3月20日

谷歌《智能体Agent》白皮书，42页pdf

谷歌《智能体Agent》白皮书，42页pdf

专知会员服务

108+阅读 · 2025年1月5日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

《对话式AI智能体：研究人工智能在人机交互中诱发拟人化和信任的特定特征》208页

《对话式AI智能体：研究人工智能在人机交互中诱发拟人化和信任的特定特征》208页

专知会员服务

32+阅读 · 2024年7月27日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

63+阅读 · 2024年4月16日

小样本学习报告：类人智能算法的初级形态，加速垂直场景下的AI普惠化

小样本学习报告：类人智能算法的初级形态，加速垂直场景下的AI普惠化

专知会员服务

42+阅读 · 2023年1月19日

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

【CoRL2020最佳论文】学习潜在表示以影响多智能体交互作用

专知会员服务

28+阅读 · 2020年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

基于自适应学习平台促进学生个性化学习的研究

基于自适应学习平台促进学生个性化学习的研究

MOOC

12+阅读 · 2018年4月2日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Arxiv

0+阅读 · 3月4日

Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 2月27日

Capturing Individual Human Preferences with Reward Features

Arxiv

0+阅读 · 2月19日

Effects of Personality- and Opinion-Alignment in Human-AI Interaction

Arxiv

0+阅读 · 2月17日

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月13日

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月12日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

Proactive Agents, Long-term User Context, VLM Annotation, Privacy Protection, Human-Computer Interaction

Arxiv

0+阅读 · 2月4日

Intelligent Front-End Personalization: AI-Driven UI Adaptation

Arxiv

0+阅读 · 2月3日

Feedback by Design: Understanding and Overcoming User Feedback Barriers in Conversational Agents

Arxiv

0+阅读 · 2月1日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员