InfoPO: Information-Driven Policy Optimization for User-Centric Agents - 专知论文

会员服务 ·

0

Agent · 优化器 · INTERACT · INFORMS · 可辨认的 ·

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

翻译：暂无翻译

Fanqi Kong,Jiayi Zhang,Mingyi Deng,Chenglin Wu,Yuyu Luo,Bang Liu

Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.

翻译：暂无翻译

0

相关内容

Agent

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

9+阅读 · 5月3日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

Agent有望定义万亿劳动力市场

Agent有望定义万亿劳动力市场

专知会员服务

19+阅读 · 2025年6月11日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

33+阅读 · 2025年3月27日

Al Agent--大模型时代重要落地方向

Al Agent--大模型时代重要落地方向

专知会员服务

107+阅读 · 2024年4月8日

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

专知会员服务

42+阅读 · 2023年10月20日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

291+阅读 · 2023年10月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

【CIKM 2019论文】基于关系型图卷积网络的代理发起的社会化电子商务推荐（Relation-Aware Graph Convolutional Networks for Agent-Initiated Social E-Commerce Recommendation）

【CIKM 2019论文】基于关系型图卷积网络的代理发起的社会化电子商务推荐（Relation-Aware Graph Convolutional Networks for Agent-Initiated Social E-Commerce Recommendation）

专知会员服务

56+阅读 · 2019年11月20日

腾讯推荐引擎组员工：谈谈推荐系统架构

腾讯推荐引擎组员工：谈谈推荐系统架构

腾讯大讲堂

14+阅读 · 2019年10月23日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

Github项目推荐 | Emotion-recognition 实时表情识别

Github项目推荐 | Emotion-recognition 实时表情识别

AI科技评论

19+阅读 · 2019年7月8日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

[深度学习] AlexNet，GoogLeNet，VGG，ResNet简化版

[深度学习] AlexNet，GoogLeNet，VGG，ResNet简化版

机器学习和数学

20+阅读 · 2017年10月13日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

机会物联网基于命名数据网络的信息检索机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境多用户的情景化动态信任决策模型及算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Intent-Governed Tool Authorization for AI Agents

Arxiv

0+阅读 · 6月22日

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

Arxiv

0+阅读 · 6月21日

NOEM$^{3}$A: a Neuro-symbolic Ontology-Enhanced Method for Multi-intent understanding in Mobile Agents

Arxiv

0+阅读 · 6月20日

Autogenesis: A Self-Evolving Agent Protocol

Arxiv

0+阅读 · 6月20日

AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

Arxiv

0+阅读 · 6月18日

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

Arxiv

0+阅读 · 6月18日

Beyond Static Endpoints: Tool Programs as an Interface for Flexible Agentic Web Services

Arxiv

0+阅读 · 6月18日

From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability

Arxiv

0+阅读 · 6月17日

TWICE: Modeling the Temporal Evolution of Personalized User Behavior via Event-Driven Agents

Arxiv

0+阅读 · 6月17日

WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks

Arxiv

0+阅读 · 6月16日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

9+阅读 · 5月3日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

41+阅读 · 2025年10月17日

Agent有望定义万亿劳动力市场

Agent有望定义万亿劳动力市场

专知会员服务

19+阅读 · 2025年6月11日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

33+阅读 · 2025年3月27日

Al Agent--大模型时代重要落地方向

Al Agent--大模型时代重要落地方向

专知会员服务

107+阅读 · 2024年4月8日

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

专知会员服务

42+阅读 · 2023年10月20日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

291+阅读 · 2023年10月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

【CIKM 2019论文】基于关系型图卷积网络的代理发起的社会化电子商务推荐（Relation-Aware Graph Convolutional Networks for Agent-Initiated Social E-Commerce Recommendation）

【CIKM 2019论文】基于关系型图卷积网络的代理发起的社会化电子商务推荐（Relation-Aware Graph Convolutional Networks for Agent-Initiated Social E-Commerce Recommendation）

专知会员服务

56+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

腾讯推荐引擎组员工：谈谈推荐系统架构

腾讯推荐引擎组员工：谈谈推荐系统架构

腾讯大讲堂

14+阅读 · 2019年10月23日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

Github项目推荐 | Emotion-recognition 实时表情识别

Github项目推荐 | Emotion-recognition 实时表情识别

AI科技评论

19+阅读 · 2019年7月8日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

微软重磅开源Recommenders：企业级可扩展推荐系统实践指南

AI前线

46+阅读 · 2019年2月25日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

[深度学习] AlexNet，GoogLeNet，VGG，ResNet简化版

[深度学习] AlexNet，GoogLeNet，VGG，ResNet简化版

机器学习和数学

20+阅读 · 2017年10月13日

相关论文

Intent-Governed Tool Authorization for AI Agents

Arxiv

0+阅读 · 6月22日

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

Arxiv

0+阅读 · 6月21日

NOEM$^{3}$A: a Neuro-symbolic Ontology-Enhanced Method for Multi-intent understanding in Mobile Agents

Arxiv

0+阅读 · 6月20日

Autogenesis: A Self-Evolving Agent Protocol

Arxiv

0+阅读 · 6月20日

AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

Arxiv

0+阅读 · 6月18日

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

Arxiv

0+阅读 · 6月18日

Beyond Static Endpoints: Tool Programs as an Interface for Flexible Agentic Web Services

Arxiv

0+阅读 · 6月18日

From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability

Arxiv

0+阅读 · 6月17日

TWICE: Modeling the Temporal Evolution of Personalized User Behavior via Event-Driven Agents

Arxiv

0+阅读 · 6月17日

WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks

Arxiv

0+阅读 · 6月16日

相关基金

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

机会物联网基于命名数据网络的信息检索机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境多用户的情景化动态信任决策模型及算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能信息处理的Web服务可信性预测与评估技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员