成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
多模态
关注
135
多模态
综合
百科
VIP
热门
动态
论文
精华
Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey
Arxiv
0+阅读 · 1月6日
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
Arxiv
0+阅读 · 1月6日
MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection
Arxiv
0+阅读 · 1月6日
Protecting multimodal large language models against misleading visualizations
Arxiv
0+阅读 · 1月6日
Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval
Arxiv
0+阅读 · 1月6日
Advancing Assistive Robotics: Multi-Modal Navigation and Biophysical Monitoring for Next-Generation Wheelchairs
Arxiv
0+阅读 · 1月6日
MMFormalizer: Multimodal Autoformalization in the Wild
Arxiv
0+阅读 · 1月6日
AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation
Arxiv
0+阅读 · 1月6日
VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents
Arxiv
0+阅读 · 1月6日
E$^2$AT: Multimodal Jailbreak Defense via Dynamic Joint Optimization for Multimodal Large Language Models
Arxiv
0+阅读 · 1月6日
AbductiveMLLM: Boosting Visual Abductive Reasoning Within MLLMs
Arxiv
0+阅读 · 1月6日
PrismVAU: Prompt-Refined Inference System for Multimodal Video Anomaly Understanding
Arxiv
0+阅读 · 1月6日
Towards Faithful Reasoning in Comics for Small MLLMs
Arxiv
0+阅读 · 1月6日
CVBench: Benchmarking Cross-Video Synergies for Complex Multimodal Reasoning
Arxiv
0+阅读 · 1月6日
Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs
Arxiv
0+阅读 · 1月6日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top