成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
多模态
关注
136
多模态
综合
百科
VIP
热门
动态
论文
精华
VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation
Arxiv
0+阅读 · 3月18日
OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning
Arxiv
0+阅读 · 3月18日
SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
Arxiv
0+阅读 · 3月18日
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models
Arxiv
0+阅读 · 3月18日
AI-Driven Multi-Modal Adaptive Handover Control Optimization for O-RAN
Arxiv
0+阅读 · 3月17日
EI: Early Intervention for Multimodal Imaging based Disease Recognition
Arxiv
0+阅读 · 3月18日
See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
Arxiv
0+阅读 · 3月18日
Can Multimodal LLMs See Science Instruction? Benchmarking Pedagogical Reasoning in K-12 Classroom Videos
Arxiv
0+阅读 · 3月17日
Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence
Arxiv
0+阅读 · 3月17日
Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition
Arxiv
0+阅读 · 3月17日
AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction
Arxiv
0+阅读 · 3月17日
WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation
Arxiv
0+阅读 · 3月17日
KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety
Arxiv
0+阅读 · 3月17日
From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation
Arxiv
0+阅读 · 3月16日
Beam Prediction Based on Multimodal Large Language Models
Arxiv
0+阅读 · 3月16日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top