Tidehunter: Large-Value Storage With Minimal Data Relocation - 专知论文

会员服务 ·

0

存储 · 引擎 · 负载 · 结构 · 均匀分布 ·

Tidehunter: Large-Value Storage With Minimal Data Relocation

翻译：Tidehunter：支持大规模数值存储且数据迁移量最小的存储引擎

Andrey Chursin,Lefteris Kokoris-Kogias,Alex Orlov,Alberto Sonnino,Igor Zablotchi

Log-Structured Merge-Trees (LSM-trees) dominate persistent key-value storage but suffer from high write amplification from 10x to 30x under random workloads due to repeated compaction. This overhead becomes prohibitive for large values with uniformly distributed keys, a workload common in content-addressable storage, deduplication systems, and blockchain validators. We present Tidehunter, a storage engine that eliminates value compaction by treating the Write-Ahead Log (WAL) as permanent storage rather than a temporary recovery buffer. Values are never overwritten; and small, lazily-flushed index tables map keys to WAL positions. Tidehunter introduces (a) lock-free writes that saturate NVMe drives through atomic allocation and parallel copying, (b) an optimistic index structure that exploits uniform key distributions for single-roundtrip lookups, and (c) epoch-based pruning that reclaims space without blocking writes. On a 1 TB dataset with 1 KB values, Tidehunter achieves 830K writes per second, that is 8.4x higher than RocksDB and 2.9x higher than BlobDB, while improving point queries by 1.7x and existence checks by 15.6x. We validate real-world impact by integrating Tidehunter into Sui, a high-throughput blockchain, where it maintains stable throughput and latency under loads that cause RocksDB-backed validators to collapse. Tidehunter is production-ready and is being deployed in production within Sui.

翻译：日志结构合并树（LSM-trees）在持久化键值存储领域占据主导地位，但其在随机工作负载下因重复压缩操作会产生高达10至30倍的写入放大。对于键值均匀分布的大规模数值存储场景——这种工作负载常见于内容寻址存储、重复数据删除系统及区块链验证节点中——此类开销变得难以承受。本文提出Tidehunter，一种通过将预写日志（WAL）作为永久存储而非临时恢复缓冲区来消除数值压缩的存储引擎。该引擎永不覆写数值数据，仅通过延迟刷新的小型索引表将键映射至WAL位置。Tidehunter创新性地引入：（a）通过原子分配与并行复制实现NVMe硬盘带宽饱和的无锁写入机制；（b）利用键值均匀分布特性实现单次往返查询的乐观索引结构；（c）基于时间周期的空间回收策略，可在不阻塞写入的情况下清理存储空间。在存储1TB数据（数值大小为1KB）的测试中，Tidehunter实现每秒83万次写入，性能达到RocksDB的8.4倍、BlobDB的2.9倍，同时点查询速度提升1.7倍，存在性检查效率提高15.6倍。我们将Tidehunter集成至高吞吐量区块链Sui以验证其实用价值：在导致RocksDB验证节点崩溃的负载压力下，该系统仍能保持稳定的吞吐量与延迟。Tidehunter已达到生产就绪标准，目前正在Sui生产环境中部署。

0

相关内容

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

智能数据库学习型索引研究综述

智能数据库学习型索引研究综述

专知会员服务

23+阅读 · 2023年1月14日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

大数据存储技术综述

专知会员服务

18+阅读 · 2020年11月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【大规模数据系统，552页ppt】Large-scale Data Systems

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

大数据技术

18+阅读 · 2019年8月20日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

亿级订单数据的访问与存储，怎么实现与优化？

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

放弃幻想，全面拥抱Transformer：NLP三大特征抽取器（CNN/RNN/TF）比较

放弃幻想，全面拥抱Transformer：NLP三大特征抽取器（CNN/RNN/TF）比较

黑龙江大学自然语言处理实验室

10+阅读 · 2019年1月15日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 3月14日

Scalable and Performant Data Loading

Arxiv

0+阅读 · 3月10日

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Arxiv

0+阅读 · 3月10日

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Arxiv

0+阅读 · 3月10日

O^3-LSM: Maximizing Disaggregated LSM Write Performance via Three-Layer Offloading

Arxiv

0+阅读 · 3月5日

RESYSTANCE: Unleashing Hidden Performance of Compaction in LSM-trees via eBPF

Arxiv

0+阅读 · 3月5日

OceanBase Bacchus: a High-Performance and Scalable Cloud-Native Shared Storage Architecture for Multi-Cloud

Arxiv

0+阅读 · 2月27日

STELLAR: Storage Tuning Engine Leveraging LLM Autonomous Reasoning for High Performance Parallel File Systems

Arxiv

0+阅读 · 2月26日

Characterize LSM-tree Compaction Performance via On-Device LLM Inference

Arxiv

0+阅读 · 2月13日

Tidehunter: Large-Value Storage With Minimal Data Relocation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

6+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

6+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

11+阅读 · 6月2日

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

10+阅读 · 6月2日

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

3+阅读 · 6月2日

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

2+阅读 · 6月2日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

5+阅读 · 6月2日

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

6+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

5+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

13+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

9+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

12+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

13+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

15+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

相关VIP内容

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

智能数据库学习型索引研究综述

智能数据库学习型索引研究综述

专知会员服务

23+阅读 · 2023年1月14日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

大数据存储技术综述

专知会员服务

18+阅读 · 2020年11月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

【Google 大脑】使用上千个优化任务学习超参数搜索策略，Using a thousand optimization tasks to learn hyperparameter search strategies

专知会员服务

18+阅读 · 2020年3月14日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【大规模数据系统，552页ppt】Large-scale Data Systems

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《反无人机系统传感器融合》90页报告

《Palantir的科技生态系统》

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

相关资讯

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

大数据技术

18+阅读 · 2019年8月20日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

亿级订单数据的访问与存储，怎么实现与优化？

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

放弃幻想，全面拥抱Transformer：NLP三大特征抽取器（CNN/RNN/TF）比较

放弃幻想，全面拥抱Transformer：NLP三大特征抽取器（CNN/RNN/TF）比较

黑龙江大学自然语言处理实验室

10+阅读 · 2019年1月15日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

相关论文

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 3月14日

Scalable and Performant Data Loading

Arxiv

0+阅读 · 3月10日

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Arxiv

0+阅读 · 3月10日

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Arxiv

0+阅读 · 3月10日

O^3-LSM: Maximizing Disaggregated LSM Write Performance via Three-Layer Offloading

Arxiv

0+阅读 · 3月5日

RESYSTANCE: Unleashing Hidden Performance of Compaction in LSM-trees via eBPF

Arxiv

0+阅读 · 3月5日

OceanBase Bacchus: a High-Performance and Scalable Cloud-Native Shared Storage Architecture for Multi-Cloud

Arxiv

0+阅读 · 2月27日

STELLAR: Storage Tuning Engine Leveraging LLM Autonomous Reasoning for High Performance Parallel File Systems

Arxiv

0+阅读 · 2月26日

Characterize LSM-tree Compaction Performance via On-Device LLM Inference

Arxiv

0+阅读 · 2月13日

Tidehunter: Large-Value Storage With Minimal Data Relocation

Arxiv

0+阅读 · 2月3日

相关基金

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员