大语言模型(LLMs)的近期进展为多模态推理开辟了新途径。然而,现有方法大多仍依赖预训练的视觉-语言模型(VLMs)来孤立地对“图像-文本”对进行编码,忽略了现实世界多模态数据中天然存在的关联结构。这促使了对多模态图(Multimodal Graphs, MMGs)推理的研究——在这种图中,每个节点均具备文本和视觉属性,而边则提供结构化线索。 在保留图拓扑结构的同时,实现基于 LLM 的异构多模态信号推理面临两大核心挑战:解决跨模态一致性薄弱问题以及处理异构模态偏好。为应对这些挑战,我们提出了 Mario,这是一个能够同时解决上述难题并实现高效 MMG 推理的统一框架。 Mario 包含两个创新阶段: 1. 图条件化 VLM 设计:通过图拓扑引导的细粒度跨模态对比学习,协同优化文本与视觉特征。 1. 模态自适应图指令微调机制:将对齐的多模态特征组织为图感知指令视图(graph-aware instruction views),并利用可学习路由为每个节点及其邻域筛选出对 LLM 最具信息量的模态配置。

在多种 MMG 基准测试上的广泛实验表明,Mario 在节点分类和链路预测任务的监督学习及零样本(zero-shot)场景下,表现均持续优于现有的最先进图模型。相关代码将在 Mario 项目地址公开。

成为VIP会员查看完整内容
16

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
7+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
12+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
10+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
10+阅读 · 4月30日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员