Reinforcement Learning from Human Feedback (RLHF) has been widely applied to Large Language Model (LLM) post-training to align model outputs with human preferences. Recent models, such as DeepSeek-R1, have also shown RLHF's potential to improve LLM reasoning on complex tasks. In RL, inference and training co-exist, creating dynamic resource demands throughout the workflow. Compared to traditional RL, RLHF further challenges training efficiency due to expanding model sizes and resource consumption. Several RLHF frameworks aim to balance flexible abstraction and efficient execution. However, they rely on serverful infrastructures, which struggle with fine-grained resource variability. As a result, during synchronous RLHF training, idle time between or within RL components often causes overhead and resource wastage. To address these issues, we present RLHFless, the first scalable training framework for synchronous RLHF, built on serverless computing environments. RLHFless adapts to dynamic resource demands throughout the RLHF pipeline, pre-computes shared prefixes to avoid repeated computation, and uses a cost-aware actor scaling strategy that accounts for response length variation to find sweet spots with lower cost and higher speed. In addition, RLHFless assigns workloads efficiently to reduce intra-function imbalance and idle time. Experiments on both physical testbeds and a large-scale simulated cluster show that RLHFless achieves up to 1.35x speedup and 44.8% cost reduction compared to the state-of-the-art baseline.


翻译:基于人类反馈的强化学习(RLHF)已被广泛应用于大语言模型(LLM)的后训练阶段,以对齐模型输出与人类偏好。近期模型(如DeepSeek-R1)也表明RLHF在提升LLM复杂任务推理能力方面具有潜力。在强化学习中,推理与训练并存,导致工作流全程存在动态资源需求。相比传统强化学习,RLHF因模型规模扩大和资源消耗增长,对训练效率提出了更大挑战。现有若干RLHF框架致力于平衡灵活抽象与高效执行,但其均依赖于服务器化基础设施,难以应对细粒度资源波动。这导致在同步RLHF训练过程中,强化学习组件间或组件内的空闲时间常引发额外开销与资源浪费。为解决这些问题,我们提出RLHFless——首个基于无服务器计算环境构建的可扩展同步RLHF训练框架。RLHFless能够自适应RLHF流程中的动态资源需求,通过预计算共享前缀避免重复运算,并采用考虑响应长度变化的成本感知执行器扩缩策略,以寻求成本更低、速度更优的平衡点。此外,RLHFless通过高效分配工作负载来减少函数内负载不均与空闲时间。在物理测试平台与大规模模拟集群上的实验表明,相较于现有最优基线方法,RLHFless最高可实现1.35倍的加速比与44.8%的成本降低。

0
下载
关闭预览

相关内容

服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。
服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
71页ppt!指令微调和RLHF讲座(NYU CSCI 2590) 附视频
专知会员服务
52+阅读 · 2023年5月20日
ChatGPT 背后的“功臣”——RLHF 技术详解
专知会员服务
171+阅读 · 2023年2月21日
【MIT博士论文】数据高效强化学习,176页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
4+阅读 · 4月12日
相关VIP内容
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员