Advances in multi-modal generative models are enabling new applications, from storytelling to automated media synthesis. Most current workloads generate simple outputs (e.g., image generation from a prompt) in batch mode, often requiring several seconds even for basic results. Serving real-time multi-modal workflows at scale is costly and complex, requiring efficient coordination of diverse models (each with unique resource needs) across language, audio, image, and video, all under strict latency and resource constraints. We tackle these challenges through the lens of real-time podcast video generation, integrating LLMs, text-to-speech, and video-audio generation. To meet tight SLOs, we design an adaptive, modular serving system, StreamWise, that dynamically manages quality (e.g., resolution, sharpness), model/content parallelism, and resource-aware scheduling. We leverage heterogeneous hardware to maximize responsiveness and efficiency. For example, the system can lower video resolution and allocate more resources to early scenes. We quantify the trade-offs between latency, cost, and quality. The cheapest setup generates a 10-minute podcast video on A100 GPUs in 1.4 hours (8.4x slower than the real-time) for less than \$25. StreamWise enables high-quality real-time streaming with a sub-second startup delay under $45.


翻译:多模态生成模型的进展正在催生从故事叙述到自动化媒体合成的新应用。当前多数工作负载以批处理模式生成简单输出(例如根据提示生成图像),即使基础结果也常需数秒。大规模实时服务多模态工作流成本高昂且复杂,需要在严格延迟和资源约束下,高效协调语言、音频、图像和视频等不同领域模型(各模型具有独特资源需求)。我们通过实时播客视频生成场景应对这些挑战,整合了LLM、文本转语音及视频-音频生成技术。为满足严格服务水平目标,我们设计了自适应模块化服务系统StreamWise,可动态管理质量参数(如分辨率、锐度)、模型/内容并行度及资源感知调度。我们利用异构硬件最大化响应速度与效率,例如系统可降低视频分辨率并为早期场景分配更多资源。我们量化了延迟、成本与质量间的权衡关系:最经济配置在A100 GPU上以1.4小时生成10分钟播客视频(比实时慢8.4倍),成本低于25美元;而StreamWise能在45美元预算内实现亚秒级启动延迟的高质量实时流式生成。

0
下载
关闭预览

相关内容

扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员