As GPU capacity fragments across geographically distributed sites, single-cluster LLM inference routing assumptions break down in measurable ways. We present Solyx AI Grid, a cross-site inference routing control plane that integrates GPU hardware telemetry (DCGM), vLLM application metrics, and real-time WAN signals (RTT, jitter) into per-request placement decisions via a 10-signal weighted pressure scorer. Across two empirical campaigns--six H100/H200 SXM GPUs and nine RTX PRO 6000 Blackwell SE GPUs spanning three US datacenters, eight workload classes, and a 216-cell SLO matrix--Solyx AI Grid delivers 1.56--1.75x throughput at tier-2 SLO over round-robin across all eight classes, cuts capability-mismatch leakage to 0.43% (versus 32% for standard routers), and reroutes around failures at a p99 of 1,247 ms versus 4,226 ms. We further find that GPU hardware telemetry leads application-layer SLO breach by 11.2 seconds on average, enabling proactive traffic drain before user-facing latency impact. To our knowledge, this is the first public empirical study of live physical multi-site LLM inference routing combining hardware telemetry, application metrics, and active WAN path signals.


翻译:随着GPU容量分散于地理分布式站点,单集群大语言模型推理路由假设在可量化维度上失效。我们提出Solyx AI Grid——一种跨站点推理路由控制平面,通过集成GPU硬件遥测(DCGM)、vLLM应用指标及实时广域网信号(RTT、抖动),基于10信号加权压力评分器实现每请求放置决策。在两轮实证研究(涵盖三个美国数据中心、八类负载及216单元SLO矩阵的六块H100/H200 SXM GPU与九块RTX PRO 6000 Blackwell SE GPU)中,Solyx AI Grid在全部八类负载的第二级SLO约束下实现1.56至1.75倍于轮询的吞吐量,将能力失配泄漏降至0.43%(标准路由器为32%),并以p99 1,247毫秒(对比4,226毫秒)完成故障重路由。进一步发现,GPU硬件遥测信号平均比应用层SLO违例提前11.2秒触发,使得在用户感知延迟影响前即可实现主动流量疏散。据我们所知,这是首个结合硬件遥测、应用指标与主动广域网路径信号的实时物理多站点LLM推理路由公开实证研究。

0
下载
关闭预览

相关内容

DeepSeek技术溯源及前沿探索
专知会员服务
34+阅读 · 2025年5月28日
从DeepSeek看国产AI的“后发优势”
专知会员服务
29+阅读 · 2025年2月28日
边缘AI行业深度:边缘AI硬件,引领硬件创新时代
专知会员服务
51+阅读 · 2024年4月18日
AI大模型落地终端,AIPC驱动PC行业新增长
专知会员服务
48+阅读 · 2024年2月25日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
AI如何帮助卫星遥感释放价值?
未来论坛
19+阅读 · 2018年8月8日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
AI如何帮助卫星遥感释放价值?
未来论坛
19+阅读 · 2018年8月8日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员