Modern key-value storage engines built on Log-Structured Merge-trees (LSM-trees), such as RocksDB and LevelDB, rely heavily on the performance of their compaction operations, which are impacted by a complex set of interdependent configuration parameters. Manually tuning these parameters for optimal performance demands considerable expertise, while traditional auto-tuning approaches struggle with the enormous search space and low sample efficiency inherent to this domain. In recent years, Large Language Models (LLMs) have demonstrated strong capabilities in code generation and logical reasoning, offering new possibilities for system optimization. However, applying LLMs to real-time compaction tuning in such latency-sensitive environments is a double-edged sword. While large-scale LLMs can offer superior reasoning for strategy generation, their high inference latency and computational cost make them impractical for interactive, low-latency tuning. In contrast, small-scale LLMs achieve low latency but often at the expense of reasoning accuracy and tuning effectiveness. In this paper, we first evaluate this trade-off by analyzing the compaction-tuning performance and inference latency of LLMs at different scales in an LSM-tree-based tuning case. We then characterize the performance of LSM-tree on RocksDB v8.8.1, with a focus on adjusting the key compaction-related parameters under db_bench workloads. Our experimental results show a clear positive correlation between model capability and tuning effectiveness.


翻译:基于日志结构合并树(LSM-tree)构建的现代键值存储引擎(如RocksDB和LevelDB)的性能高度依赖于其合并操作,而该操作受到一系列复杂且相互依存的配置参数影响。为获得最优性能而手动调整这些参数需要大量专业知识,而传统的自动调优方法则受限于该领域固有的巨大搜索空间与低样本效率。近年来,大型语言模型(LLMs)在代码生成与逻辑推理方面展现出强大能力,为系统优化提供了新的可能性。然而,在此类对延迟敏感的环境中应用LLMs进行实时合并调优是一把双刃剑:大规模LLMs虽能提供更优的策略生成推理能力,但其高推理延迟与计算成本使其难以适用于交互式、低延迟的调优场景;相反,小规模LLMs可实现低延迟,但往往以牺牲推理准确性与调优效果为代价。本文首先通过分析基于LSM-tree的调优案例中不同规模LLMs的合并调优性能与推理延迟,评估了这一权衡关系。随后,我们以RocksDB v8.8.1为平台,在db_bench工作负载下重点调整与合并相关的关键参数,对LSM-tree的性能进行了系统性表征。实验结果表明,模型能力与调优效果之间存在显著的正相关关系。

0
下载
关闭预览

相关内容

大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
54+阅读 · 2025年10月24日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
一文详解LSTM网络
论智
18+阅读 · 2018年5月2日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
深度学习基础之LSTM
全球人工智能
29+阅读 · 2017年12月18日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
相关资讯
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
一文详解LSTM网络
论智
18+阅读 · 2018年5月2日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
深度学习基础之LSTM
全球人工智能
29+阅读 · 2017年12月18日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员