当前的多模态大语言模型在处理长文档理解任务时,仍面临两大根本性挑战:海量无关内容造成的信息干扰,以及基于Transformer架构的二次计算复杂度。现有方法主要分为两类:通过令牌压缩牺牲细节粒度的方法,以及引入外部检索器导致系统复杂性增加且无法端到端优化的方案。 为突破这些限制,我们通过深入分析发现:MLLMs呈现出类人的从粗到细推理模式——早期Transformer层广泛关注文档整体内容,而深层网络则聚焦于相关证据页面。基于这一发现,我们提出可以显式利用MLLMs固有的证据定位能力,在推理过程中执行检索操作,从而实现高效的长文档理解。 为此,我们提出了URaG——一个简单而有效的统一检索生成框架。该框架通过引入轻量级跨模态检索模块,将早期Transformer层转换为高效证据选择器,能够精准识别并保留最相关页面,同时过滤无关内容。这种设计使得深层网络可以集中计算资源处理关键信息,在提升准确性的同时优化计算效率。大量实验表明,URaG在实现最优性能的同时,显著降低了44%-56%的计算开销。 代码已开源:https://github.com/shi-yx/URaG

成为VIP会员查看完整内容
15

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
22+阅读 · 2023年10月21日
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
28+阅读 · 2020年5月25日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
27+阅读 · 2023年3月17日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
相关论文
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
27+阅读 · 2023年3月17日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员