UniHetero：在大数据规模下，生成能否增强视觉语言模型的理解能力？ (UniHetero: Could Generation Enhance Understanding for Vision-Language-Model at Large Data Scale?) - 专知论文

会员服务 ·

0

大数据 · 语言模型 · 视觉语言模型 · 分析 · 结构 ·

2025 年 12 月 29 日

UniHetero: Could Generation Enhance Understanding for Vision-Language-Model at Large Data Scale?

翻译：UniHetero：在大数据规模下，生成能否增强视觉语言模型的理解能力？

Fengjiao Chen,Minhao Jing,Weitao Lu,Yan Feng,Xiaoyu Li,Xuezhi Cao

Vision-language large models are moving toward the unification of visual understanding and visual generation tasks. However, whether generation can enhance understanding is still under-explored on large data scale. In this work, we analysis the unified model with a concise structure, UniHetero, under large-scale pretraining (>200M samples). Our key observations are: (1) Generation can improve understanding, but Only if you generate Semantics, Not Pixels. (2) Generation reveals a superior Data Scaling trend and higher Data Utilization. (3) Autoregression on Input Embedding is effective to capture visual details.

翻译：视觉语言大模型正朝着视觉理解与视觉生成任务的统一方向发展。然而，在大数据规模下，生成能否增强理解能力仍未得到充分探索。在本工作中，我们分析了一个结构简洁的统一模型——UniHetero，并在大规模预训练（>2亿样本）下进行了研究。我们的关键发现是：（1）生成能够提升理解能力，但前提是生成语义，而非像素。（2）生成展现出更优的数据缩放趋势和更高的数据利用率。（3）在输入嵌入上进行自回归能有效捕捉视觉细节。

0

相关内容

大数据

从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。

面向计算机视觉的数据生成与应用研究进展

面向计算机视觉的数据生成与应用研究进展

专知会员服务

14+阅读 · 2025年5月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

统一的多模态文字理解与生成大模型

统一的多模态文字理解与生成大模型

专知会员服务

30+阅读 · 2024年10月11日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

41+阅读 · 2024年6月8日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

57+阅读 · 2024年4月27日

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

专知会员服务

43+阅读 · 2024年2月2日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月4日

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Arxiv

0+阅读 · 1月30日

Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

Arxiv

0+阅读 · 1月30日

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Arxiv

0+阅读 · 1月29日

GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning

Arxiv

0+阅读 · 1月26日

Scaling Vision Language Models for Pharmaceutical Long Form Video Reasoning on Industrial GenAI Platform

Arxiv

0+阅读 · 1月8日

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Arxiv

0+阅读 · 1月8日

UniVideo: Unified Understanding, Generation, and Editing for Videos

Arxiv

0+阅读 · 1月7日

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

Arxiv

0+阅读 · 2025年12月30日

CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models

Arxiv

0+阅读 · 2025年12月29日

VIP会员

文章信息

相关主题

视觉语言模型

相关VIP内容

面向计算机视觉的数据生成与应用研究进展

面向计算机视觉的数据生成与应用研究进展

专知会员服务

14+阅读 · 2025年5月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

统一的多模态文字理解与生成大模型

统一的多模态文字理解与生成大模型

专知会员服务

30+阅读 · 2024年10月11日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

41+阅读 · 2024年6月8日

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

57+阅读 · 2024年4月27日

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

【UIUC博士论文】生成式深度学习：走向更好的视觉表征和多模态

专知会员服务

43+阅读 · 2024年2月2日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于选择性深度神经网络分类的弹性无线通信》最新报告

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

《用于高功率微波反无人机系统设计与性能评估的多物理场仿真框架》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关论文

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Arxiv

0+阅读 · 2月4日

Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Arxiv

0+阅读 · 1月30日

Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

Arxiv

0+阅读 · 1月30日

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Arxiv

0+阅读 · 1月29日

GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning

Arxiv

0+阅读 · 1月26日

Scaling Vision Language Models for Pharmaceutical Long Form Video Reasoning on Industrial GenAI Platform

Arxiv

0+阅读 · 1月8日

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Arxiv

0+阅读 · 1月8日

UniVideo: Unified Understanding, Generation, and Editing for Videos

Arxiv

0+阅读 · 1月7日

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

Arxiv

0+阅读 · 2025年12月30日

CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models

Arxiv

0+阅读 · 2025年12月29日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员