Visually impaired individuals face significant challenges in environmental perception. Traditional assistive technologies often lack adaptive intelligence, focusing on individual components rather than integrated systems. While Vision-Language Models (VLMs) offer a promising path to richer, integrated understanding, their deployment is severely limited by substantial computational requirements, demanding dozens of gigabytes of memory. To address these gaps in computational efficiency and integrated design, this study proposes a dual technological innovation framework: a cross-modal differentiated quantization framework for VLMs and a scene-aware vectorized memory multi-agent system. The quantization framework implements differentiated strategies, reducing memory from 38GB to 11.3GB. The multi-agent system uses vectorized memory and perception-memory-reasoning workflows to provide environmental information beyond the current view, achieving 2.83-3.52s latency to initial speech output. Experiments show the quantized 19B-parameter model only experiences a 2.05% performance drop on MMBench and maintains 63.7 accuracy on OCR-VQA (original: 64.9), outperforming smaller models with equivalent memory. This research advances computational efficiency and assistive technology, offering comprehensive assistance in scene perception, text recognition, and navigation.


翻译:视障人士在环境感知方面面临重大挑战。传统辅助技术往往缺乏自适应智能,侧重于独立组件而非集成系统。尽管视觉语言模型为实现更丰富、集成的理解提供了有前景的路径,但其部署受到巨大计算需求的严重限制,需要数十吉字节的内存。为弥补计算效率和集成设计方面的这些不足,本研究提出了一个双重技术创新框架:一个用于视觉语言模型的跨模态差异化量化框架,以及一个场景感知的向量化记忆多智能体系统。该量化框架实施差异化策略,将内存占用从38GB降低至11.3GB。该多智能体系统利用向量化记忆和感知-记忆-推理工作流,提供超出当前视野的环境信息,实现首次语音输出的2.83-3.52秒延迟。实验表明,量化后的190亿参数模型在MMBench上仅出现2.05%的性能下降,并在OCR-VQA上保持63.7的准确率(原始模型:64.9),其表现优于具有同等内存占用的更小模型。这项研究推动了计算效率和辅助技术的进步,在场景感知、文本识别和导航方面提供了全面的辅助。

0
下载
关闭预览

相关内容

多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
机器视觉专题报告: AI+机器视觉,应用场景持续拓展
专知会员服务
61+阅读 · 2023年6月20日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
混合增强视觉认知架构及其关键技术进展
专知会员服务
46+阅读 · 2021年11月20日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
40+阅读 · 2021年8月31日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
机器视觉专题报告: AI+机器视觉,应用场景持续拓展
专知会员服务
61+阅读 · 2023年6月20日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
混合增强视觉认知架构及其关键技术进展
专知会员服务
46+阅读 · 2021年11月20日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
40+阅读 · 2021年8月31日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员