成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
模态
关注
4
综合
百科
VIP
热门
动态
论文
精华
VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation
Arxiv
0+阅读 · 3月18日
OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning
Arxiv
0+阅读 · 3月18日
VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection
Arxiv
0+阅读 · 3月18日
SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
Arxiv
0+阅读 · 3月18日
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models
Arxiv
0+阅读 · 3月18日
UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models
Arxiv
0+阅读 · 3月18日
AI-Driven Multi-Modal Adaptive Handover Control Optimization for O-RAN
Arxiv
0+阅读 · 3月17日
EI: Early Intervention for Multimodal Imaging based Disease Recognition
Arxiv
0+阅读 · 3月18日
UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection
Arxiv
0+阅读 · 3月18日
See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
Arxiv
0+阅读 · 3月18日
Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation
Arxiv
0+阅读 · 3月18日
A quantitative analysis of semantic information in deep representations of text and images
Arxiv
0+阅读 · 3月18日
Can Multimodal LLMs See Science Instruction? Benchmarking Pedagogical Reasoning in K-12 Classroom Videos
Arxiv
0+阅读 · 3月17日
Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence
Arxiv
0+阅读 · 3月17日
Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition
Arxiv
0+阅读 · 3月17日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top