从行动到文字：强化学习中的抽象文本策略摘要生成 (From Actions to Words: Towards Abstractive-Textual Policy Summarization in RL) - 专知论文

会员服务 ·

0

演示 · 抽象文本 · 结构 · 摘要生成 · 语言模型 ·

From Actions to Words: Towards Abstractive-Textual Policy Summarization in RL

翻译：从行动到文字：强化学习中的抽象文本策略摘要生成

Sahar Admoni,Assaf Hallak,Yftah Ziser,Omer Ben-Porat,Ofra Amir

from arxiv, In Proceedings of AAMAS 2026 (The 25th International Conference on Autonomous Agents and Multi-Agent Systems)

Explaining reinforcement learning agents is challenging because policies emerge from complex reward structures and neural representations that are difficult for humans to interpret. Existing approaches often rely on curated demonstrations that expose local behaviors but provide limited insight into an agent's global strategy, leaving users to infer intent from raw observations. We propose SySLLM (Synthesized Summary using Large Language Models), a framework that reframes policy interpretation as a language-generation problem. Instead of visual demonstrations, SySLLM converts spatiotemporal trajectories into structured text and prompts an LLM to generate coherent summaries describing the agent's goals, exploration style, and decision patterns. SySLLM scales to long-horizon, semantically rich environments without task-specific fine-tuning, leveraging LLM world knowledge and compositional reasoning to capture latent behavioral structure across policies. Expert evaluations show strong alignment with human analyses, and a large-scale user study found that 75.5% of participants preferred SySLLM summaries over state-of-the-art demonstration-based explanations. Together, these results position abstractive textual summarization as a paradigm for interpreting complex RL behavior.

翻译：解释强化学习智能体具有挑战性，因为策略源于复杂的奖励结构和难以被人理解的神经表征。现有方法通常依赖于精心设计的演示，这些演示虽然能揭示局部行为，但对智能体全局策略的洞察有限，使得用户不得不从原始观察中推断其意图。我们提出了SySLLM（基于大语言模型的合成摘要），该框架将策略解释重新定义为语言生成问题。SySLLM并非依赖视觉演示，而是将时空轨迹转换为结构化文本，并提示大语言模型生成连贯的摘要，描述智能体的目标、探索风格和决策模式。SySLLM无需针对特定任务进行微调，即可扩展到长时程、语义丰富的环境中，它利用大语言模型的世界知识和组合推理能力，捕捉不同策略间的潜在行为结构。专家评估表明，该方法与人类分析高度一致；一项大规模用户研究发现，75.5%的参与者更倾向于选择SySLLM生成的摘要，而非当前最先进的基于演示的解释方法。这些结果共同表明，抽象文本摘要生成是解释复杂强化学习行为的一种有效范式。

0

相关内容

面向视觉的强化学习综述

面向视觉的强化学习综述

专知会员服务

21+阅读 · 2025年8月12日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

专知会员服务

65+阅读 · 2022年12月21日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知会员服务

38+阅读 · 2022年7月21日

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

专知会员服务

89+阅读 · 2020年12月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

【论文笔记】基于强化学习的句子摘要排序

【论文笔记】基于强化学习的句子摘要排序

专知

19+阅读 · 2019年9月14日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Reinforcement Learning Enhancement Using Vector Semantic Representation and Symbolic Reasoning for Human-Centered Autonomous Emergency Braking

Arxiv

0+阅读 · 2月4日

EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL

Arxiv

0+阅读 · 2月4日

Action-Free Offline-to-Online RL via Discretised State Policies

Arxiv

0+阅读 · 1月31日

From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

Representation-Driven Reinforcement Learning

Arxiv

0+阅读 · 1月22日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

SPEC-RL: Accelerating On-Policy Reinforcement Learning with Speculative Rollouts

Arxiv

0+阅读 · 1月12日

R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification

Arxiv

0+阅读 · 1月7日

Sensor to Pixels: Decentralized Swarm Gathering via Image-Based Reinforcement Learning

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

相关VIP内容

面向视觉的强化学习综述

面向视觉的强化学习综述

专知会员服务

21+阅读 · 2025年8月12日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

专知会员服务

65+阅读 · 2022年12月21日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知会员服务

38+阅读 · 2022年7月21日

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

专知会员服务

89+阅读 · 2020年12月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

AI智能体时代大模型安全风险与攻防新挑战

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

18+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

【论文笔记】基于强化学习的句子摘要排序

【论文笔记】基于强化学习的句子摘要排序

专知

19+阅读 · 2019年9月14日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

Reinforcement Learning Enhancement Using Vector Semantic Representation and Symbolic Reasoning for Human-Centered Autonomous Emergency Braking

Arxiv

0+阅读 · 2月4日

EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL

Arxiv

0+阅读 · 2月4日

Action-Free Offline-to-Online RL via Discretised State Policies

Arxiv

0+阅读 · 1月31日

From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning

Arxiv

0+阅读 · 1月30日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

Representation-Driven Reinforcement Learning

Arxiv

0+阅读 · 1月22日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

SPEC-RL: Accelerating On-Policy Reinforcement Learning with Speculative Rollouts

Arxiv

0+阅读 · 1月12日

R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification

Arxiv

0+阅读 · 1月7日

Sensor to Pixels: Decentralized Swarm Gathering via Image-Based Reinforcement Learning

Arxiv

0+阅读 · 1月6日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员