Most video restoration networks are slow, have high computational load, and can't be used for real-time video enhancement. In this work, we design an efficient and fast framework to perform real-time video enhancement for practical use-cases like live video calls and video streams. Our proposed method, called Recurrent Bottleneck Mixer Network (ReBotNet), employs a dual-branch framework. The first branch learns spatio-temporal features by tokenizing the input frames along the spatial and temporal dimensions using a ConvNext-based encoder and processing these abstract tokens using a bottleneck mixer. To further improve temporal consistency, the second branch employs a mixer directly on tokens extracted from individual frames. A common decoder then merges the features form the two branches to predict the enhanced frame. In addition, we propose a recurrent training approach where the last frame's prediction is leveraged to efficiently enhance the current frame while improving temporal consistency. To evaluate our method, we curate two new datasets that emulate real-world video call and streaming scenarios, and show extensive results on multiple datasets where ReBotNet outperforms existing approaches with lower computations, reduced memory requirements, and faster inference time.


翻译:大多数视频恢复网络速度慢、计算负载高,无法用于实时视频增强。在这项工作中,我们设计了一个高效且快速的框架,用于实际场景(如实时视频通话和视频流)中的实时视频增强。我们提出的方法称为循环瓶颈混合器网络(ReBotNet),采用双分支架构。第一个分支通过使用基于ConvNext的编码器将输入帧沿空间和时间维度进行令牌化,并利用瓶颈混合器处理这些抽象令牌,从而学习时空特征。为进一步提升时间一致性,第二个分支直接在从单个帧中提取的令牌上应用混合器。随后,一个公共解码器合并两个分支的特征,以预测增强后的帧。此外,我们提出了一种循环训练方法,利用前一帧的预测结果高效地增强当前帧,同时改善时间一致性。为评估我们的方法,我们整理了两个模拟真实视频通话和流媒体场景的新数据集,并在多个数据集上展示了广泛的结果:ReBotNet在计算量更低、内存需求更少、推理速度更快的情况下,优于现有方法。

0
下载
关闭预览

相关内容

视觉弱监督学习研究进展
专知会员服务
32+阅读 · 2022年6月28日
专知会员服务
32+阅读 · 2020年4月24日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
SSD多盒实时目标检测教程
论智
13+阅读 · 2018年4月5日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
16+阅读 · 2021年3月2日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
视觉弱监督学习研究进展
专知会员服务
32+阅读 · 2022年6月28日
专知会员服务
32+阅读 · 2020年4月24日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员