大语言模型(LLMs)的近期进展为多模态推理开辟了新途径。然而,现有方法大多仍依赖预训练的视觉-语言模型(VLMs)来孤立地对“图像-文本”对进行编码,忽略了现实世界多模态数据中天然存在的关联结构。这促使了对多模态图(Multimodal Graphs, MMGs)推理的研究——在这种图中,每个节点均具备文本和视觉属性,而边则提供结构化线索。 在保留图拓扑结构的同时,实现基于 LLM 的异构多模态信号推理面临两大核心挑战:解决跨模态一致性薄弱问题以及处理异构模态偏好。为应对这些挑战,我们提出了 Mario,这是一个能够同时解决上述难题并实现高效 MMG 推理的统一框架。 Mario 包含两个创新阶段: 1. 图条件化 VLM 设计:通过图拓扑引导的细粒度跨模态对比学习,协同优化文本与视觉特征。 1. 模态自适应图指令微调机制:将对齐的多模态特征组织为图感知指令视图(graph-aware instruction views),并利用可学习路由为每个节点及其邻域筛选出对 LLM 最具信息量的模态配置。

在多种 MMG 基准测试上的广泛实验表明,Mario 在节点分类和链路预测任务的监督学习及零样本(zero-shot)场景下,表现均持续优于现有的最先进图模型。相关代码将在 Mario 项目地址公开。

成为VIP会员查看完整内容
13

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员