GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer - 专知论文

会员服务 ·

0

提示优化 · 语言模型 · 流网络 · 优化器 · 样本 ·

GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer

翻译：GFlowPO：生成流网络作为语言模型提示优化器

Junmo Cho,Suhan Kim,Sangjune An,Minsu Kim,Dong Bok Lee,Heejun Lee,Sung Ju Hwang,Hae Beom Lee

Finding effective prompts for language models (LMs) is critical yet notoriously difficult: the prompt space is combinatorially large, rewards are sparse due to expensive target-LM evaluation. Yet, existing RL-based prompt optimizers often rely on on-policy updates and a meta-prompt sampled from a fixed distribution, leading to poor sample efficiency. We propose GFlowPO, a probabilistic prompt optimization framework that casts prompt search as a posterior inference problem over latent prompts regularized by a meta-prompted reference-LM prior. In the first step, we fine-tune a lightweight prompt-LM with an off-policy Generative Flow Network (GFlowNet) objective, using a replay-based training policy that reuses past prompt evaluations to enable sample-efficient exploration. In the second step, we introduce Dynamic Memory Update (DMU), a training-free mechanism that updates the meta-prompt by injecting both (i) diverse prompts from a replay buffer and (ii) top-performing prompts from a small priority queue, thereby progressively concentrating the search process on high-reward regions. Across few-shot text classification, instruction induction benchmarks, and question answering tasks, GFlowPO consistently outperforms recent discrete prompt optimization baselines.

翻译：为语言模型（LM）寻找有效的提示至关重要，但众所周知十分困难：提示空间在组合意义上是巨大的，由于目标语言模型评估成本高昂，奖励信号稀疏。然而，现有的基于强化学习的提示优化器通常依赖于在线策略更新和从固定分布中采样的元提示，导致样本效率低下。我们提出了GFlowPO，一个概率性提示优化框架，它将提示搜索构建为一个关于潜在提示的后验推断问题，并通过一个元提示化的参考语言模型先验进行正则化。第一步，我们使用离策略的生成流网络（GFlowNet）目标对轻量级的提示语言模型进行微调，采用一种基于回放的训练策略，该策略重用过去的提示评估以实现样本高效的探索。第二步，我们引入了动态内存更新（DMU），这是一种免训练的机制，它通过注入（i）来自回放缓冲区的多样化提示和（ii）来自小型优先级队列的顶级性能提示来更新元提示，从而逐步将搜索过程集中在高奖励区域。在少样本文本分类、指令归纳基准测试和问答任务中，GFlowPO始终优于近期的离散提示优化基线方法。

0

相关内容

提示优化

【NTU博士论文】让语言模型成为更类人的学习者

【NTU博士论文】让语言模型成为更类人的学习者

专知会员服务

23+阅读 · 2025年9月23日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

24+阅读 · 2025年7月6日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

专知会员服务

54+阅读 · 2024年12月25日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

UIUC-Gargi《增强型语言模型》，64页ppt与视频

UIUC-Gargi《增强型语言模型》，64页ppt与视频

专知会员服务

37+阅读 · 2023年5月12日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

图与推荐

130+阅读 · 2020年2月6日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

哈工大SCIR

14+阅读 · 2017年11月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

社交网络形成与演化规律的定量分析模型及其应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Prompt and Parameter Co-Optimization for Large Language Models

Arxiv

0+阅读 · 3月2日

promptolution: A Unified, Modular Framework for Prompt Optimization

Arxiv

0+阅读 · 2月23日

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Arxiv

0+阅读 · 2月14日

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Arxiv

0+阅读 · 2月12日

Language Model Inversion through End-to-End Differentiation

Arxiv

0+阅读 · 2月11日

Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models

Arxiv

0+阅读 · 2月10日

iGRPO: Self-Feedback-Driven LLM Reasoning

Arxiv

0+阅读 · 2月9日

PromptPex: Automatic Test Generation for Language Model Prompts

Arxiv

0+阅读 · 2月5日

LoPace: A Lossless Optimized Prompt Accurate Compression Engine for Large Language Model Applications

Arxiv

0+阅读 · 2月4日

EvalQReason: A Framework for Step-Level Reasoning Evaluation in Large Language Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

【NTU博士论文】让语言模型成为更类人的学习者

【NTU博士论文】让语言模型成为更类人的学习者

专知会员服务

23+阅读 · 2025年9月23日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

24+阅读 · 2025年7月6日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

专知会员服务

54+阅读 · 2024年12月25日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

UIUC-Gargi《增强型语言模型》，64页ppt与视频

UIUC-Gargi《增强型语言模型》，64页ppt与视频

专知会员服务

37+阅读 · 2023年5月12日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

Tensorflow GNN最佳实践：tf_geometric（附图自编码器GAE完整代码）

图与推荐

130+阅读 · 2020年2月6日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

哈工大SCIR

14+阅读 · 2017年11月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Prompt and Parameter Co-Optimization for Large Language Models

Arxiv

0+阅读 · 3月2日

promptolution: A Unified, Modular Framework for Prompt Optimization

Arxiv

0+阅读 · 2月23日

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Arxiv

0+阅读 · 2月14日

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Arxiv

0+阅读 · 2月12日

Language Model Inversion through End-to-End Differentiation

Arxiv

0+阅读 · 2月11日

Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models

Arxiv

0+阅读 · 2月10日

iGRPO: Self-Feedback-Driven LLM Reasoning

Arxiv

0+阅读 · 2月9日

PromptPex: Automatic Test Generation for Language Model Prompts

Arxiv

0+阅读 · 2月5日

LoPace: A Lossless Optimized Prompt Accurate Compression Engine for Large Language Model Applications

Arxiv

0+阅读 · 2月4日

EvalQReason: A Framework for Step-Level Reasoning Evaluation in Large Language Models

Arxiv

0+阅读 · 2月2日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

社交网络形成与演化规律的定量分析模型及其应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员