Smaller is Better: Generative Models Can Power Short Video Preloading - 专知论文

会员服务 ·

0

视频 · 带宽 · 调度 · 生成模型 · 传输 ·

Smaller is Better: Generative Models Can Power Short Video Preloading

翻译：越小越好：生成模型赋能短视频预加载

Liming Liu,Jiangkai Wu,Xinggong Zhang

from arxiv, 6 pages, 7 figures, to appear in ICC 2026

Preloading is widely used in short video platforms to minimize playback stalls by downloading future content in advance. However, existing strategies face a tradeoff. Aggressive preloading reduces stalls but wastes bandwidth, while conservative strategies save data but increase the risk of playback stalls. This paper presents PromptPream, a computation powered preloading paradigm that breaks this tradeoff by using local computation to reduce bandwidth demand. Instead of transmitting pixel level video chunks, PromptPream sends compact semantic prompts that are decoded into high quality frames using generative models such as Stable Diffusion. We propose three core techniques to enable this paradigm: (1) a gradient based prompt inversion method that compresses frames into small sets of compact token embeddings; (2) a computation aware scheduling strategy that jointly optimizes network and compute resource usage; and (3) a scalable searching algorithm that addresses the enlarged scheduling space introduced by scheduler. Evaluations show that PromptStream reduces both stalls and bandwidth waste by over 31%, and improves Quality of Experience (QoE) by 45%, compared to traditional strategies.

翻译：预加载技术被广泛应用于短视频平台，通过提前下载未来内容以最小化播放卡顿。然而，现有策略面临一个权衡：激进的预加载能减少卡顿但浪费带宽，而保守的策略虽节省数据却增加了播放卡顿的风险。本文提出PromptPream，一种计算驱动的预加载范式，通过利用本地计算来降低带宽需求，从而打破这一权衡。PromptPream不传输像素级视频块，而是发送紧凑的语义提示，并使用如Stable Diffusion等生成模型将其解码为高质量帧。为实现此范式，我们提出了三项核心技术：（1）一种基于梯度的提示反转方法，将视频帧压缩成小型紧凑的令牌嵌入集；（2）一种计算感知的调度策略，联合优化网络和计算资源的使用；（3）一种可扩展的搜索算法，以应对调度器引入的扩大化调度空间。评估结果表明，与传统策略相比，PromptStream将卡顿和带宽浪费均降低了超过31%，并将体验质量提升了45%。

0

相关内容

视频

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

预训练视觉模型的参数高效微调

预训练视觉模型的参数高效微调

专知会员服务

32+阅读 · 2024年3月19日

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

专知会员服务

43+阅读 · 2023年7月29日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

抖音短视频推荐大赛小规模赛道Top8模型代码开源

抖音短视频推荐大赛小规模赛道Top8模型代码开源

专知

182+阅读 · 2019年5月30日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

教你实现超流行的骨架屏预加载动态效果

教你实现超流行的骨架屏预加载动态效果

IMWeb前端社区

73+阅读 · 2018年11月27日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

Arxiv

0+阅读 · 3月2日

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

Arxiv

0+阅读 · 2月26日

Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

Arxiv

0+阅读 · 2月19日

Dual-Signal Adaptive KV-Cache Optimization for Long-Form Video Understanding in Vision-Language Models

Arxiv

0+阅读 · 2月15日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

Arxiv

0+阅读 · 2月11日

Camel: Frame-Level Bandwidth Estimation for Low-Latency Live Streaming under Video Bitrate Undershooting

Arxiv

0+阅读 · 2月10日

SPPAM: Signature Pattern Prediction and Access-Map Prefetcher

Arxiv

0+阅读 · 2月8日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

预训练视觉模型的参数高效微调

预训练视觉模型的参数高效微调

专知会员服务

32+阅读 · 2024年3月19日

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

牛津大学等最新《视觉-语言基础模型的提示工程》系统性综述

专知会员服务

43+阅读 · 2023年7月29日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

抖音短视频推荐大赛小规模赛道Top8模型代码开源

抖音短视频推荐大赛小规模赛道Top8模型代码开源

专知

182+阅读 · 2019年5月30日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

教你实现超流行的骨架屏预加载动态效果

教你实现超流行的骨架屏预加载动态效果

IMWeb前端社区

73+阅读 · 2018年11月27日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

相关论文

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

Arxiv

0+阅读 · 3月2日

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

Arxiv

0+阅读 · 2月26日

Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

Arxiv

0+阅读 · 2月19日

Dual-Signal Adaptive KV-Cache Optimization for Long-Form Video Understanding in Vision-Language Models

Arxiv

0+阅读 · 2月15日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

Arxiv

0+阅读 · 2月11日

Camel: Frame-Level Bandwidth Estimation for Low-Latency Live Streaming under Video Bitrate Undershooting

Arxiv

0+阅读 · 2月10日

SPPAM: Signature Pattern Prediction and Access-Map Prefetcher

Arxiv

0+阅读 · 2月8日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员