成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
多媒体
关注
4
综合
百科
VIP
热门
动态
论文
精华
PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification
Arxiv
0+阅读 · 3月18日
GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture
Arxiv
0+阅读 · 3月15日
ReactMotion: Generating Reactive Listener Motions from Speaker Utterance
Arxiv
0+阅读 · 3月16日
Multimodal Cyber-physical Interaction in XR: Hybrid Doctoral Thesis Defense
Arxiv
0+阅读 · 3月16日
AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer
Arxiv
0+阅读 · 3月16日
GenState-AI: State-Aware Dataset for Text-to-Video Retrieval on AI-Generated Videos
Arxiv
0+阅读 · 3月15日
Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation
Arxiv
0+阅读 · 3月16日
EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing
Arxiv
0+阅读 · 3月16日
Adaptive Virtual Reality Museum: A Closed-Loop Framewor for Engagement-Aware Cultural Heritage
Arxiv
0+阅读 · 3月13日
FCMBench: The First Large-scale Financial Credit Multimodal Benchmark for Real-world Applications
Arxiv
0+阅读 · 3月13日
Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking
Arxiv
0+阅读 · 3月13日
Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation
Arxiv
0+阅读 · 3月13日
Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing
Arxiv
0+阅读 · 2月26日
Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound
Arxiv
0+阅读 · 3月10日
Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring
Arxiv
0+阅读 · 2月25日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top