DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors - 专知论文

会员服务 ·

0

密集预测 · 多模 · 模态 · 多模态 · 解码 ·

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

翻译：DenseMLLM：标准多模态大语言模型本质上是密集预测器

Yi Li,Hongze Shen,Lexiang Tang,Xin Li,Xinpeng Ding,Yinsong Liu,Deqiang Jiang,Xing Sun,Xiaomeng Li

from arxiv, 25 pages, 9 figures

Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in high-level visual understanding. However, extending these models to fine-grained dense prediction tasks, such as semantic segmentation and depth estimation, typically necessitates the incorporation of complex, task-specific decoders and other customizations. This architectural fragmentation increases model complexity and deviates from the generalist design of MLLMs, ultimately limiting their practicality. In this work, we challenge this paradigm by accommodating standard MLLMs to perform dense predictions without requiring additional task-specific decoders. The proposed model is called DenseMLLM, grounded in the standard architecture with a novel vision token supervision strategy for multiple labels and tasks. Despite its minimalist design, our model achieves highly competitive performance across a wide range of dense prediction and vision-language benchmarks, demonstrating that a standard, general-purpose MLLM can effectively support dense perception without architectural specialization.

翻译：多模态大语言模型（MLLMs）已在高层视觉理解任务中展现出卓越能力。然而，将这些模型扩展到细粒度密集预测任务（如语义分割和深度估计）通常需要引入复杂的、任务特定的解码器及其他定制化组件。这种架构上的碎片化增加了模型复杂性，偏离了MLLMs的通才设计理念，最终限制了其实用性。在本研究中，我们通过适配标准MLLMs使其无需额外任务特定解码器即可执行密集预测，从而挑战了这一范式。所提出的模型称为DenseMLLM，其基于标准架构，并采用了一种面向多标签多任务的新型视觉令牌监督策略。尽管设计极简，我们的模型在广泛的密集预测和视觉-语言基准测试中均取得了极具竞争力的性能，证明标准的通用MLLM无需架构特化即可有效支持密集感知。

0

相关内容

密集预测

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

多模态大语言模型遇见多模态情绪识别与推理：综述

多模态大语言模型遇见多模态情绪识别与推理：综述

专知会员服务

22+阅读 · 2025年10月3日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

西工大最新《多模态大型语言模型》全面综述

西工大最新《多模态大型语言模型》全面综述

专知会员服务

70+阅读 · 2024年8月6日

《高效多模态大型语言模型》综述

《高效多模态大型语言模型》综述

专知会员服务

73+阅读 · 2024年5月20日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity

Arxiv

0+阅读 · 3月13日

LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models

Arxiv

0+阅读 · 3月12日

Linking Perception, Confidence and Accuracy in MLLMs

Arxiv

0+阅读 · 3月12日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月28日

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Arxiv

0+阅读 · 2月28日

RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training

Arxiv

0+阅读 · 2月13日

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Arxiv

0+阅读 · 2月11日

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization

Arxiv

0+阅读 · 2月10日

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Arxiv

0+阅读 · 2月5日

MM-THEBench: Do Reasoning MLLMs Think Reasonably?

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

2+阅读 · 今天15:13

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

2+阅读 · 今天15:08

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

2+阅读 · 今天15:06

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

3+阅读 · 今天14:53

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

3+阅读 · 今天14:51

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

3+阅读 · 今天14:47

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

3+阅读 · 今天14:42

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

2+阅读 · 今天14:38

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

13+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

多模态大语言模型遇见多模态情绪识别与推理：综述

多模态大语言模型遇见多模态情绪识别与推理：综述

专知会员服务

22+阅读 · 2025年10月3日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

47+阅读 · 2025年6月14日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

西工大最新《多模态大型语言模型》全面综述

西工大最新《多模态大型语言模型》全面综述

专知会员服务

70+阅读 · 2024年8月6日

《高效多模态大型语言模型》综述

《高效多模态大型语言模型》综述

专知会员服务

73+阅读 · 2024年5月20日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Cost-Efficient Multimodal LLM Inference via Cross-Tier GPU Heterogeneity

Arxiv

0+阅读 · 3月13日

LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models

Arxiv

0+阅读 · 3月12日

Linking Perception, Confidence and Accuracy in MLLMs

Arxiv

0+阅读 · 3月12日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月28日

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Arxiv

0+阅读 · 2月28日

RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training

Arxiv

0+阅读 · 2月13日

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Arxiv

0+阅读 · 2月11日

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization

Arxiv

0+阅读 · 2月10日

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Arxiv

0+阅读 · 2月5日

MM-THEBench: Do Reasoning MLLMs Think Reasonably?

Arxiv

0+阅读 · 1月30日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员