Despite recent progress in Multi-Modal Large Language Models (MLLMs), it remains challenging to integrate diverse tasks ranging from pixel-level perception to high-fidelity generation. Existing approaches often suffer from either restricted task extensibility or severe performance degradation due to modality interference. n this paper, we present LLMBind, an extensible framework that unifies multimodal tasks through a dual-pathway mechanism: In-Situ semantic embeddings for localization-sensitive tasks like semantic segmentation and Ex-Situ task-prompts for generation across image, video, and audio modalities. Additionally, we employ a Mixture-of-Experts (MoE) architecture to route task-specific tokens, thereby achieving modality disentanglement and mitigating negative transfer. We also curate a 400k multi-turn interactive dataset focused on iterative visual refinement to enable human-like interaction. Extensive experiments demonstrate that LLMBind achieves excellent performance across multiple perception and generation benchmarks while maintaining superior expandability.


翻译:尽管多模态大语言模型(MLLMs)近期取得了进展,但整合从像素级感知到高保真生成的多样化任务仍然具有挑战性。现有方法常因任务可扩展性受限或模态干扰导致的严重性能下降而表现不佳。本文提出LLMBind,一个通过双路径机制统一多模态任务的可扩展框架:针对语义分割等定位敏感任务采用原位语义嵌入,而针对图像、视频和音频模态的生成任务则采用异位任务提示。此外,我们采用混合专家(MoE)架构来路由任务特定令牌,从而实现模态解耦并缓解负迁移。我们还构建了一个包含40万轮次、专注于迭代视觉细化的多轮交互数据集,以实现类人交互。大量实验表明,LLMBind在多个感知与生成基准测试中均取得优异性能,同时保持了卓越的可扩展性。

0
下载
关闭预览

相关内容

大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
129+阅读 · 2024年6月13日
《LLMs遇见多模态生成与编辑》综述
专知会员服务
41+阅读 · 2024年6月3日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
101+阅读 · 2024年4月12日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员