Mission-critical applications often run "forever" and process large data volumes in real time while demanding low latency. To handle the large state of these applications, modern streaming engines rely on key-value stores and store state on local storage or remotely, but accessing such state inflates latency. As today's engines tightly couple the data path with state I/O, a tuple triggers state access only when it reaches a stateful operator, placing I/O on the critical path and stalling the CPU. However, the keys used to access the state are frequently known earlier in the query plan. Building on this insight, we propose Keyed Prefetching, which decouples the data path from state access by extracting future access keys at upstream operators and proactively staging the corresponding state in memory before tuples arrive. This overlaps I/O with ongoing computation and hides the latency of large-state accesses. We pair Keyed Prefetching with Timestamp-Aware Caching, a cache-eviction policy that jointly manages previously accessed and prefetched entries to use memory efficiently. Together, these techniques reduce latency for long-running, real-time queries without sacrificing throughput.


翻译:关键任务应用通常"永久"运行,实时处理海量数据同时要求低延迟。为处理这些应用的大规模状态,现代流处理引擎依赖键值存储,并将状态存储在本地或远程存储系统中,但访问此类状态会增加延迟。由于当前引擎将数据路径与状态I/O紧密耦合,元组仅当到达有状态算子时才触发状态访问,这使得I/O处于关键路径上并阻塞CPU。然而,用于访问状态的键通常在查询计划的更早期阶段已知。基于这一洞察,我们提出键预取(Keyed Prefetching)技术,通过在上游算子处提取未来访问键,并在元组到达前主动将相应状态预载入内存,从而将数据路径与状态访问解耦。该技术使I/O与正在进行的计算重叠,隐藏了大规模状态访问的延迟。我们将键预取与时间戳感知缓存(Timestamp-Aware Caching)相结合——这是一种联合管理已访问条目和预取条目的缓存逐出策略,以高效利用内存。这些技术协同作用,可在不牺牲吞吐量的情况下降低长时间运行实时查询的延迟。

0
下载
关闭预览

相关内容

【博士论文】优化智能体工作流以提升信息获取效率
专知会员服务
19+阅读 · 2025年7月7日
最新《流处理系统演化》综述论文,34页pdf
专知会员服务
21+阅读 · 2020年8月4日
流程/过程挖掘(Process Mining)最新综述
PaperWeekly
23+阅读 · 2022年9月19日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 11分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 23分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 43分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【博士论文】优化智能体工作流以提升信息获取效率
专知会员服务
19+阅读 · 2025年7月7日
最新《流处理系统演化》综述论文,34页pdf
专知会员服务
21+阅读 · 2020年8月4日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员