多模态理解论文 - 专知

会员服务 ·

多模态理解

多模态理解

UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

Arxiv

0+阅读 · 6月15日

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

Arxiv

0+阅读 · 4月17日

LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation

Arxiv

0+阅读 · 3月29日

LinMU: Multimodal Understanding Made Linear

Arxiv

0+阅读 · 5月3日

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding

Arxiv

0+阅读 · 4月28日

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Arxiv

0+阅读 · 4月22日

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Arxiv

0+阅读 · 4月27日

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Arxiv

0+阅读 · 4月26日

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Arxiv

0+阅读 · 2月23日

iGVLM: Dynamic Instruction-Guided Vision Encoding for Question-Aware Multimodal Understanding

Arxiv

0+阅读 · 3月9日

LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

Arxiv

0+阅读 · 2月15日

ERNIE 5.0 Technical Report

Arxiv

0+阅读 · 2月4日

DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding

Arxiv

0+阅读 · 1月25日

VMMU: A Vietnamese Multitask Multimodal Understanding and Reasoning Benchmark

Arxiv

0+阅读 · 1月23日

VMMU: A Vietnamese Multitask Multimodal Understanding and Reasoning Benchmark

Arxiv

0+阅读 · 1月13日

参考链接

微信扫码咨询专知VIP会员