FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines - 专知论文

会员服务 ·

0

优化器 · Prompt · 均值 · 大语言模型 · INTERACT ·

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

翻译：暂无翻译

Paul Kassianik,Baturay Saglam,Huaibo Zhao,Blaine Nelson,Supriti Vijay,Aman Priyanshu,Amin Karbasi

Multi-step LLM pipelines fail through interactions among retrieval, reasoning, and formatting steps, so prompt-only optimization can miss bottlenecks in the chain. We present FAPO (Fully Autonomous Prompt Optimization), a framework that lets Claude Code optimize an LLM pipeline inside a standardized codebase. FAPO evaluates a pipeline, inspects intermediate steps, diagnoses failures, proposes scoped changes, and validates variants repeatedly to optimize against a score function. It first tries prompt edits and, only when prompt optimization appears insufficient, changes chain structure within the permitted scope when attribution identifies a structural bottleneck. Across six benchmarks and three task models, FAPO beats the baseline GEPA in 15 of 18 model-benchmark comparisons. In 11 model-benchmark comparisons, FAPO wins with non-overlapping mean $\pm$ trial-standard-deviation ranges, and the mean FAPO-GEPA gain is +14.1 pp. In the six HoVer and IFBench comparisons where prompt-first search escalated to structural changes, FAPO wins all six with a mean gain of +33.8 pp. FAPO also improves performance on security tasks: on CTIBench-RCM, a security CVE-to-CWE task, prompt-only FAPO lifts test accuracy by +4.0 pp on GPT-5, +7.1 pp on Foundation-Sec-8B-Instruct, and +2.0 pp on Foundation-Sec-8B-Reasoning. These results position FAPO as a state-of-the-art pipeline optimization technique for both general-purpose and security-focused tasks.

翻译：暂无翻译

0

相关内容

优化器

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

10+阅读 · 5月5日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

专知会员服务

26+阅读 · 2024年11月19日

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

【ICLR2021】微分动态规划神经优化器

专知会员服务

16+阅读 · 2021年3月4日

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

专知会员服务

49+阅读 · 2020年6月15日

【论文】多关系庞加莱图嵌入（Multi-relational Poincaré Graph Embeddings），爱丁堡大学| Ivana Balažević

【论文】多关系庞加莱图嵌入（Multi-relational Poincaré Graph Embeddings），爱丁堡大学| Ivana Balažević

专知会员服务

59+阅读 · 2019年12月30日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【CVPR2021】面向通用领域自适应的领域共识聚类

【CVPR2021】面向通用领域自适应的领域共识聚类

专知

24+阅读 · 2021年5月6日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【AGV】仓库内多AGV协作的全局路径规划算法的研究

【AGV】仓库内多AGV协作的全局路径规划算法的研究

产业智能官

28+阅读 · 2018年11月10日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

论文笔记：多任务相关粒子滤波跟踪器

论文笔记：多任务相关粒子滤波跟踪器

统计学习与视觉计算组

10+阅读 · 2017年7月7日

斜拉桥上无缝线路梁轨相互作用机理及计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

复杂产品并行设计多源变更传播机理和路径优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于桁架-机构映射的多体系统拓扑优化方法

国家自然科学基金

0+阅读 · 2014年12月31日

高速列车轮轨滚动接触损伤的多因素竞争机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

含频变、幅变非线性橡胶衬套的车辆多体系统动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

CFPO: Counterfactual Policy Optimization for Multimodal Reasoning

Arxiv

0+阅读 · 6月22日

LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

Arxiv

0+阅读 · 6月21日

Disentangling Intrinsic Importance from Emergent Structure in Multi-Expert Orchestration

Arxiv

0+阅读 · 6月21日

FAPO: Fully Automated Prompt Optimization of Multi-Step LLM Pipelines

Arxiv

0+阅读 · 6月20日

A Hybrid, Multi-Layered Pipeline for Phishing and Threat Classification: Independently Validated URL and NLP Engines with a Calibrated Multi-Channel Fusion Stage

Arxiv

0+阅读 · 6月19日

Iterative Audit Convergence in LLM-Managed Multi-Agent Systems: A Case Study in Prompt-Engineering Quality Assurance

Arxiv

0+阅读 · 6月19日

EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent

Arxiv

0+阅读 · 6月18日

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Arxiv

0+阅读 · 6月18日

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Arxiv

0+阅读 · 6月16日

Decoupled Intelligence: A Multi-Agent LLM Framework for Controllable Traffic Scenario Generation in SUMO

Arxiv

0+阅读 · 5月26日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

10+阅读 · 5月5日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

专知会员服务

26+阅读 · 2024年11月19日

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

【ICLR2021】微分动态规划神经优化器

专知会员服务

16+阅读 · 2021年3月4日

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

【NeurIPS 2019】多关系庞加莱图嵌入，Multi-relational Poincaré Graph Embeddings

专知会员服务

49+阅读 · 2020年6月15日

【论文】多关系庞加莱图嵌入（Multi-relational Poincaré Graph Embeddings），爱丁堡大学| Ivana Balažević

【论文】多关系庞加莱图嵌入（Multi-relational Poincaré Graph Embeddings），爱丁堡大学| Ivana Balažević

专知会员服务

59+阅读 · 2019年12月30日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【CVPR2021】面向通用领域自适应的领域共识聚类

【CVPR2021】面向通用领域自适应的领域共识聚类

专知

24+阅读 · 2021年5月6日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

【泡泡一分钟】GOMSF——基于多传感器融合的图优化无人机鲁棒位姿估计方法

泡泡机器人SLAM

25+阅读 · 2019年7月2日

meta learning 17年：MAML SNAIL

meta learning 17年：MAML SNAIL

CreateAMind

11+阅读 · 2019年1月2日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【AGV】仓库内多AGV协作的全局路径规划算法的研究

【AGV】仓库内多AGV协作的全局路径规划算法的研究

产业智能官

28+阅读 · 2018年11月10日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

论文笔记：多任务相关粒子滤波跟踪器

论文笔记：多任务相关粒子滤波跟踪器

统计学习与视觉计算组

10+阅读 · 2017年7月7日

相关论文

CFPO: Counterfactual Policy Optimization for Multimodal Reasoning

Arxiv

0+阅读 · 6月22日

LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

Arxiv

0+阅读 · 6月21日

Disentangling Intrinsic Importance from Emergent Structure in Multi-Expert Orchestration

Arxiv

0+阅读 · 6月21日

FAPO: Fully Automated Prompt Optimization of Multi-Step LLM Pipelines

Arxiv

0+阅读 · 6月20日

A Hybrid, Multi-Layered Pipeline for Phishing and Threat Classification: Independently Validated URL and NLP Engines with a Calibrated Multi-Channel Fusion Stage

Arxiv

0+阅读 · 6月19日

Iterative Audit Convergence in LLM-Managed Multi-Agent Systems: A Case Study in Prompt-Engineering Quality Assurance

Arxiv

0+阅读 · 6月19日

EvoPref: Multi-Objective Evolutionary Optimization Discovers Diverse LLM Alignments Beyond Gradient Descent

Arxiv

0+阅读 · 6月18日

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Arxiv

0+阅读 · 6月18日

Beyond Prediction: Tail-Aware Scheduling for LLM Inference

Arxiv

0+阅读 · 6月16日

Decoupled Intelligence: A Multi-Agent LLM Framework for Controllable Traffic Scenario Generation in SUMO

Arxiv

0+阅读 · 5月26日

相关基金

斜拉桥上无缝线路梁轨相互作用机理及计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

复杂产品并行设计多源变更传播机理和路径优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于桁架-机构映射的多体系统拓扑优化方法

国家自然科学基金

0+阅读 · 2014年12月31日

高速列车轮轨滚动接触损伤的多因素竞争机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

含频变、幅变非线性橡胶衬套的车辆多体系统动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员