Video understanding models often struggle with high computational requirements, extensive parameter counts, and slow inference speed, making them inefficient for practical use. To tackle these challenges, we propose Mobile-VideoGPT, an efficient multimodal framework designed to operate with fewer than a billion parameters. Unlike traditional video large multimodal models (LMMs), Mobile-VideoGPT consists of lightweight dual visual encoders, efficient projectors, and a small language model (SLM), enabling real-time throughput. To further improve efficiency, we present an Attention-Based Frame Scoring mechanism to select the key-frames, along with an efficient token projector that prunes redundant visual tokens and preserves essential contextual cues. We evaluate our model across well-established six video understanding benchmarks (e.g., MVBench, EgoSchema, NextQA, and PercepTest). Our results show that Mobile-VideoGPT-0.5B can generate up to 46 tokens per second while outperforming existing state-of-the-art 0.5B-parameter models by 6 points on average with 40% fewer parameters and more than 2x higher throughput. Our code and models are publicly available at: https://github.com/Amshaker/Mobile-VideoGPT.


翻译:视频理解模型常因高计算需求、庞大参数量及缓慢推理速度而难以实际应用。为应对这些挑战,我们提出Mobile-VideoGPT——一个高效的 multimodal 框架,能在低于十亿参数下运行。与传统视频大型多模态模型不同,Mobile-VideoGPT 由轻量级双视觉编码器、高效投影器和一个小型语言模型组成,可实现实时吞吐。为进一步提升效率,我们提出基于注意力的帧评分机制以选择关键帧,并配备高效令牌投影器,修剪冗余视觉令牌同时保留关键上下文信息。我们在六个成熟视频理解基准(如MVBench、EgoSchema、NextQA 及 PercepTest)上评估模型。结果显示,Mobile-VideoGPT-0.5B 每秒可生成高达46个令牌,在平均性能上超越现有最先进的0.5B参数模型6个百分点,同时减少40%参数且吞吐量提升逾两倍。我们的代码和模型已开源:https://github.com/Amshaker/Mobile-VideoGPT。

0
下载
关闭预览

相关内容

Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
【ChatGPT系列报告】ChatGPT 引发的大模型时代变革,80页pdf
专知会员服务
221+阅读 · 2023年2月28日
AIGC行业深度报告:ChatGPT:重新定义搜索“入口”
专知会员服务
138+阅读 · 2023年2月10日
Fast-OCNet: 更快更好的OCNet.
极市平台
21+阅读 · 2019年2月10日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员