External Experience Serving in Production LLM Systems: A Deployment-Oriented Study of Quality-Cost Trade-offs - 专知论文

会员服务 ·

0

系统 · 语言模型 · 生产系统 · 在线 · 输出 ·

External Experience Serving in Production LLM Systems: A Deployment-Oriented Study of Quality-Cost Trade-offs

翻译：大型语言模型生产系统中的外部经验服务：面向部署的质量与成本权衡研究

Lin Sun,Heming Zhang,Xiangzheng Zhang

Production LLM systems accumulate reusable operational experience, but the practical deployment issue is not merely whether such experience can help. It is how different serving strategies trade off quality against online cost under realistic constraints. Injecting external experience can improve task quality, yet it also increases prompt burden, latency, and serving pressure. We study \textit{external experience serving} as a deployment-oriented quality-cost trade-off problem. We evaluate this question in a real production moderation setting, with tool-use and GPQA as supporting contrast tasks that expose different output-cost regimes. We compare no-experience baselines, random experience controls, global prompt injection, and retrieval-based selective injection, and analyze both task quality and serving cost. The results show that, once experience becomes case-dependent, selective retrieval provides a stronger operating point than unconditional global injection. They further show that retrieval quality matters more than simply increasing Top-$K$, and that the same serving policy can exhibit substantially different cost-benefit profiles across short-output and decode-heavy regimes. These findings suggest that external experience is best treated as a selective, cost-aware serving decision rather than as a universal add-on. Overall, in the settings studied here, external experience pays off only when both the serving interface and the task-specific cost structure make its quality gains worth the online cost.

翻译：生产级大型语言模型系统会积累可复用的运行经验，但实际部署的核心问题并非仅在于此类经验能否发挥作用，而在于不同服务策略如何在现实约束下平衡质量与在线成本。注入外部经验可提升任务质量，却也会增加提示负担、延迟与服务压力。本文将“外部经验服务”视为一个面向部署的质量-成本权衡问题，在真实生产审核场景中开展评估，并以工具调用与GPQA作为辅助对照任务以揭示不同输出-成本区间特性。我们对比了无经验基线、随机经验控制、全局提示注入及基于检索的选择性注入策略，从任务质量与服务成本两个维度进行分析。结果表明：当经验需根据具体案例定制时，选择性检索比无差别全局注入能提供更优的操作点；检索质量比单纯增加Top-K选取数量更为关键；同一服务策略在短输出与解码密集型场景下会呈现显著不同的成本效益特征。这些发现表明，外部经验应被视为一种选择性、成本感知的服务决策而非通用附加模块。总体而言，在本研究的设定下，仅当服务接口与任务特定成本结构能使其质量收益值得付出在线成本时，外部经验才具有实际价值。

0

相关内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

【新书】大语言模型在生产中的应用：从语言模型到成功产品

【新书】大语言模型在生产中的应用：从语言模型到成功产品

专知会员服务

71+阅读 · 2025年1月21日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

专知会员服务

34+阅读 · 2024年10月7日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

专知

51+阅读 · 2021年4月8日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

考虑时段费用的生产外包集成排序和协调机制设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑外包的生产重调度问题模型与优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多部门机构下的生产规划与资源配置

国家自然科学基金

3+阅读 · 2014年12月31日

外部激励对网络口碑传播行为和说服力的影响：基于大数据分析和行为实验的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Large-Scale Multi-Dimensional Empirical Study of LLMs for Conversation Summarization

Arxiv

0+阅读 · 6月14日

On The Effectiveness-Fluency Trade-Off In LLM Conditioning: A Systematic Study

Arxiv

0+阅读 · 6月10日

How Software Engineering Students Use LLMs to Write Research Papers: An Experience Report

Arxiv

0+阅读 · 6月5日

Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees

Arxiv

0+阅读 · 6月3日

Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems

Arxiv

0+阅读 · 6月1日

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Arxiv

0+阅读 · 5月24日

ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production

Arxiv

0+阅读 · 5月11日

Mechanism Design for Quality-Preserving LLM Advertising

Arxiv

0+阅读 · 5月7日

Fine-Tuning Small Language Models for Solution-Oriented Windows Event Log Analysis

Arxiv

0+阅读 · 5月7日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

【新书】大语言模型在生产中的应用：从语言模型到成功产品

【新书】大语言模型在生产中的应用：从语言模型到成功产品

专知会员服务

71+阅读 · 2025年1月21日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

AI 开发生命周期：大规模语言模型（LLMs）带来的变化学习

专知会员服务

34+阅读 · 2024年10月7日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

专知

51+阅读 · 2021年4月8日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

相关论文

A Large-Scale Multi-Dimensional Empirical Study of LLMs for Conversation Summarization

Arxiv

0+阅读 · 6月14日

On The Effectiveness-Fluency Trade-Off In LLM Conditioning: A Systematic Study

Arxiv

0+阅读 · 6月10日

How Software Engineering Students Use LLMs to Write Research Papers: An Experience Report

Arxiv

0+阅读 · 6月5日

Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees

Arxiv

0+阅读 · 6月3日

Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems

Arxiv

0+阅读 · 6月1日

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Arxiv

0+阅读 · 5月24日

ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production

Arxiv

0+阅读 · 5月11日

Mechanism Design for Quality-Preserving LLM Advertising

Arxiv

0+阅读 · 5月7日

Fine-Tuning Small Language Models for Solution-Oriented Windows Event Log Analysis

Arxiv

0+阅读 · 5月7日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

相关基金

考虑时段费用的生产外包集成排序和协调机制设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑外包的生产重调度问题模型与优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多部门机构下的生产规划与资源配置

国家自然科学基金

3+阅读 · 2014年12月31日

外部激励对网络口碑传播行为和说服力的影响：基于大数据分析和行为实验的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员