We are entering a new era of composite model architectures that integrate diverse components such as vision encoders, language backbones, diffusion and flow heads, audio codecs, action generators, and world-model predictors. Such architectures underpin a broad class of multimodal models, including unified multimodal models, omni models, speech-language models, vision-language-action policies, and world models. However, existing model serving frameworks were built on narrow assumptions about model structure, making them ill-suited to accommodate this new architectural diversity. Here we present M*, a universal serving system for efficient serving of composite AI models. M* represents models as dataflow graphs, processing requests spanning diverse modalities and tasks as traversals over these graphs. The core insight is a modular abstraction that supports arbitrary composition of model components, flexible placement onto a physical cluster, and model-agnostic optimizations within a distributed runtime. We call this abstraction the Walk Graph and show how it can concisely capture composite models from a broad range of families. We instantiate M* on representative models and find that it achieves, on average, 20% lower end-to-end latency than vLLM-Omni for text-to-image workloads on BAGEL, while delivering up to 2.9x lower real-time factor and 2.7x higher throughput for text-to-speech workloads on Qwen3-Omni. M* also outperforms the V-JEPA 2-AC rollout baseline for robotic planning by up to 12.5x. Thus, our work paves the road towards more efficient serving of complex models with minimal developer effort.


翻译:我们正进入一个复合模型架构的新时代,这些架构集成了多种组件,例如视觉编码器、语言骨干网络、扩散/流头、音频编解码器、动作生成器以及世界模型预测器。此类架构支撑着广泛的多模态模型类别,包括统一多模态模型、全能模型、语音-语言模型、视觉-语言-动作策略及世界模型。然而,现有模型服务框架基于对模型结构的狭隘假设而构建,难以适应这种新兴架构的多样性。本文提出M*——一种用于高效服务复合AI模型的通用服务系统。M*将模型表示为数据流图,将跨模态和任务的请求处理转化为对该图的遍历。核心创新在于一种模块化抽象,支持模型组件的任意组合、在物理集群上的灵活部署以及分布式运行时中的模型无关优化。我们将此抽象称为"行走图"(Walk Graph),并展示其如何简洁地捕获来自广泛模型家族的复合模型。我们在典型模型上实现M*,发现其在BAGEL上的文本到图像任务中,端到端延迟较vLLM-Omni平均降低20%;在Qwen3-Omni上的文本到语音任务中,实时因子降低至2.9倍,吞吐量提升至2.7倍。对于机器人规划任务,M*相比V-JEPA 2-AC滚动基线性能提升高达12.5倍。因此,我们的工作以最小开发代价,为复杂模型的高效服务铺平了道路。

0
下载
关闭预览

相关内容

多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
41+阅读 · 2024年12月7日
《多语言大型语言模型:系统综述》
专知会员服务
50+阅读 · 2024年11月21日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
多模态模型架构的演变
专知会员服务
71+阅读 · 2024年5月29日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
14+阅读 · 2024年5月28日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
41+阅读 · 2024年12月7日
《多语言大型语言模型:系统综述》
专知会员服务
50+阅读 · 2024年11月21日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
多模态模型架构的演变
专知会员服务
71+阅读 · 2024年5月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员