The pursuit of high-performance data transfer often focuses on raw network bandwidth, where international links of 100 Gbps or higher are frequently considered the primary enabler. While necessary, this network-centric view is incomplete. It equates provisioned link speeds with practical, sustainable data movement capabilities. It is a common observation that lower-than-desired data rates manifest even on 10 Gbps links and commodity hardware, with higher-speed networks only amplifying their visibility. We investigate six paradigms -- from network latency and TCP congestion control to host-side factors such as CPU performance and virtualization -- that critically impact data movement workflows. These paradigms represent widely accepted engineering assumptions that inform system design, procurement decisions, and operational practices in production data movement environments. We introduce the Drainage Basin Pattern conceptual model for reasoning about end-to-end data flow constraints across heterogeneous hardware and software components at varying desired data rates to address the fidelity gap between raw bandwidth and application-level throughput. Our findings are validated through rigorous production-scale deployments, from 10 Gbps links to U.S. DOE ESnet technical evaluations and transcontinental production trials over 100 Gbps operational links. The results demonstrate that principal bottlenecks often reside outside the network core, and that a holistic hardware-software co-design enables consistent, predictable performance for moving data at scale and speed.


翻译:高性能数据传输的追求往往聚焦于原始网络带宽,其中100 Gbps或更高的国际链路常被视为主要使能因素。尽管这一网络中心视角不可或缺,却并不全面——它简单地将已配置的链路速度等同于实际可维持的数据移动能力。一个普遍观察是,即使在10 Gbps链路与商用硬件上,低于预期的数据传输速率也屡见不鲜,而高速网络只是放大了这一现象的可见性。我们研究了六种关键范式——从网络延迟、TCP拥塞控制,到CPU性能、虚拟化等主机侧因素——它们对数据移动工作流产生关键影响。这些范式代表了广泛接受的工程假设,指导着生产环境数据移动中的系统设计、采购决策与运维实践。为弥合原始带宽与应用层吞吐量之间的保真度差距,我们提出了"流域盆地模式"概念模型,用于推理跨异构软硬件组件的端到端数据流约束,并支持不同目标数据速率下的分析。我们的发现通过严格的生产级部署得到验证:从10 Gbps链路到美国能源部ESnet技术评估,再到跨大陆100 Gbps运营链路的实际生产试验。结果表明,主要瓶颈通常位于网络核心之外,而硬件-软件协同设计能够实现大规模、高速数据移动下的一致性与可预测性能。

0
下载
关闭预览

相关内容

《战术数据链感知模拟器标准的不断演变》
专知会员服务
38+阅读 · 2024年12月26日
专知会员服务
37+阅读 · 2021年7月8日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
最新《动态网络嵌入》综述论文,25页pdf
专知
37+阅读 · 2020年6月17日
迁移自适应学习最新综述,附21页论文下载
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
《战术数据链感知模拟器标准的不断演变》
专知会员服务
38+阅读 · 2024年12月26日
专知会员服务
37+阅读 · 2021年7月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员