Long-term Monitoring of Kernel and Hardware Events to Understand Latency Variance - 专知论文

会员服务 ·

0

事件 · 波动 · 分析 · 积累 · 构建 ·

Long-term Monitoring of Kernel and Hardware Events to Understand Latency Variance

翻译：长期监测内核与硬件事件以理解延迟波动

Fang Zhou,Yuyang Huang,Miao Yu,Sixiang Ma,Tongping Liu,Yang Wang

This paper presents our experience to understand latency variance caused by kernel and hardware events, which are often invisible at the application level. For this purpose, we have built VarMRI, a tool chain to monitor and analyze those events in the long term. To mitigate the "big data" problem caused by long-term monitoring, VarMRI selectively records a subset of events following two principles: it only records events that are affecting the requests recorded by the application; it records coarse-grained information first and records additional information only when necessary. Furthermore, VarMRI introduces an analysis method that is efficient on large amount of data, robust on different data set and against missing data, and informative to the user. VarMRI has helped us to carry out a 3,000-hour study of six applications and benchmarks on CloudLab. It reveals a wide variety of events causing latency variance, including interrupt preemption, Java GC, pipeline stall, NUMA balancing etc.; simple optimization or tuning can reduce tail latencies by up to 31%. Furthermore, the impacts of some of these events vary significantly across different experiments, which confirms the necessity of long-term monitoring.

翻译：本文介绍了我们为理解由内核与硬件事件引起的延迟波动所积累的经验，这些事件通常在应用层面不可见。为此，我们构建了VarMRI——一个用于长期监测与分析这些事件的工具链。为缓解长期监测产生的“大数据”问题，VarMRI遵循两项原则选择性记录事件子集：仅记录影响应用所记录请求的事件；首先记录粗粒度信息，仅在必要时记录额外信息。此外，VarMRI引入了一种分析方法，该方法能高效处理海量数据，对不同数据集及数据缺失情况具有鲁棒性，并能向用户提供有效信息。借助VarMRI，我们在CloudLab上对六个应用与基准测试开展了为期3000小时的研究。研究揭示了导致延迟波动的多种事件，包括中断抢占、Java垃圾回收、流水线阻塞、NUMA平衡等；简单的优化或调参可使尾部延迟降低达31%。值得注意的是，部分事件的影响在不同实验间存在显著差异，这证实了长期监测的必要性。

0

相关内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

《解密基于事件的相机延迟：传感器速度取决于像素偏置、光线和空间活动》美陆军2023最新40页技术报告

《解密基于事件的相机延迟：传感器速度取决于像素偏置、光线和空间活动》美陆军2023最新40页技术报告

专知会员服务

27+阅读 · 2023年10月21日

深度学习在时间序列异常检测中的应用综述

深度学习在时间序列异常检测中的应用综述

专知会员服务

110+阅读 · 2022年11月11日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

基于图注意力机制和Transformer的异常检测

基于图注意力机制和Transformer的异常检测

专知会员服务

62+阅读 · 2022年5月16日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知会员服务

128+阅读 · 2020年8月30日

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

专知会员服务

68+阅读 · 2020年7月21日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

专知会员服务

45+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

钙钛矿光伏器件中异常迟滞现象的扫描探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

Event Detection with a Context-Aware Encoder and LoRA for Improved Performance on Long-Tailed Classes

Arxiv

0+阅读 · 2月16日

Event-driven type design for clinical trials with recurrent events

Arxiv

0+阅读 · 2月7日

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

EventFlash: Towards Efficient MLLMs for Event-Based Vision

Arxiv

0+阅读 · 2月3日

AverageTime: Enhance Long-Term Time Series Forecasting with Simple Averaging

Arxiv

0+阅读 · 1月31日

Learning-Based Sensor Scheduling for Delay-Aware and Stable Remote State Estimation

Arxiv

0+阅读 · 1月29日

Scalable Sequential Recommendation under Latency and Memory Constraints

Arxiv

0+阅读 · 1月29日

EVEREST: An Evidential, Tail-Aware Transformer for Rare-Event Time-Series Forecasting

Arxiv

0+阅读 · 1月28日

Wavelet-Aware Anomaly Detection in Multi-Channel User Logs via Deviation Modulation and Resolution-Adaptive Attention

Arxiv

0+阅读 · 1月18日

Scalable Sequential Recommendation under Latency and Memory Constraints

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

2+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

1+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

4+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

13+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

4+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

8+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

20+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

9+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

8+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

《解密基于事件的相机延迟：传感器速度取决于像素偏置、光线和空间活动》美陆军2023最新40页技术报告

《解密基于事件的相机延迟：传感器速度取决于像素偏置、光线和空间活动》美陆军2023最新40页技术报告

专知会员服务

27+阅读 · 2023年10月21日

深度学习在时间序列异常检测中的应用综述

深度学习在时间序列异常检测中的应用综述

专知会员服务

110+阅读 · 2022年11月11日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

基于图注意力机制和Transformer的异常检测

基于图注意力机制和Transformer的异常检测

专知会员服务

62+阅读 · 2022年5月16日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知会员服务

128+阅读 · 2020年8月30日

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

最新《大数据时代事件预测》综述论文，40页pdf，Emory 大学

专知会员服务

68+阅读 · 2020年7月21日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

专知会员服务

45+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

相关论文

Event Detection with a Context-Aware Encoder and LoRA for Improved Performance on Long-Tailed Classes

Arxiv

0+阅读 · 2月16日

Event-driven type design for clinical trials with recurrent events

Arxiv

0+阅读 · 2月7日

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

EventFlash: Towards Efficient MLLMs for Event-Based Vision

Arxiv

0+阅读 · 2月3日

AverageTime: Enhance Long-Term Time Series Forecasting with Simple Averaging

Arxiv

0+阅读 · 1月31日

Learning-Based Sensor Scheduling for Delay-Aware and Stable Remote State Estimation

Arxiv

0+阅读 · 1月29日

Scalable Sequential Recommendation under Latency and Memory Constraints

Arxiv

0+阅读 · 1月29日

EVEREST: An Evidential, Tail-Aware Transformer for Rare-Event Time-Series Forecasting

Arxiv

0+阅读 · 1月28日

Wavelet-Aware Anomaly Detection in Multi-Channel User Logs via Deviation Modulation and Resolution-Adaptive Attention

Arxiv

0+阅读 · 1月18日

Scalable Sequential Recommendation under Latency and Memory Constraints

Arxiv

0+阅读 · 1月13日

相关基金

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

钙钛矿光伏器件中异常迟滞现象的扫描探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员