Video Large Language Models (Video LLMs) have shown remarkable progress in understanding and reasoning about visual content, particularly in tasks involving text recognition and text-based visual question answering (Text VQA). However, deploying Text VQA on wearable devices faces a fundamental tension: text recognition requires high-resolution video, but streaming high-quality video drains battery and causes thermal throttling. Moreover, existing models struggle to maintain coherent temporal context when processing text across multiple frames in real-time streams. We observe that text recognition and visual reasoning have asymmetric resolution requirements - OCR needs fine detail while scene understanding tolerates coarse features. We exploit this asymmetry with a hybrid architecture that performs selective high-resolution OCR on-device while streaming low-resolution video for visual context. On a benchmark of text-based VQA samples across five task categories, our system achieves 72% accuracy at 0.49x the power consumption of full-resolution streaming, enabling sustained VQA sessions on resource-constrained wearables without sacrificing text understanding quality.


翻译:视频大语言模型(Video LLMs)在视觉内容理解与推理方面取得了显著进展,尤其在涉及文本识别和基于文本的视觉问答(Text VQA)任务中。然而,在可穿戴设备上部署Text VQA面临一个根本性矛盾:文本识别需要高分辨率视频,但传输高质量视频会快速消耗电量并引发热降频。此外,现有模型在处理实时视频流中跨多帧的文本时,难以保持连贯的时间上下文。我们观察到文本识别与视觉推理对分辨率的要求具有不对称性——光学字符识别需要精细细节,而场景理解可容忍粗糙特征。基于此,我们提出一种混合架构,在设备端执行选择性高分辨率OCR的同时,传输低分辨率视频以提供视觉上下文。在涵盖五个任务类别的基于文本VQA样本基准测试中,该系统以全分辨率视频流0.49倍的功耗实现了72%的准确率,使得在资源受限的可穿戴设备上能够持续进行VQA会话,且不牺牲文本理解质量。

0
下载
关闭预览

相关内容

大语言模型遇上知识图谱:问答系统中的融合与机遇
专知会员服务
29+阅读 · 2025年5月30日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
【2022新书】视觉问答 (VQA):从理论到应用
专知会员服务
63+阅读 · 2022年5月24日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
16+阅读 · 2021年11月14日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员