模式识别论文 - 专知

会员服务 ·

模式识别

模式识别 Pattern Recognition

Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search

Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search

Arxiv

1+阅读 · 3月18日

M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation

Arxiv

0+阅读 · 3月18日

AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization

Arxiv

0+阅读 · 3月18日

FACE-net: Factual Calibration and Emotion Augmentation for Retrieval-enhanced Emotional Video Captioning

FACE-net: Factual Calibration and Emotion Augmentation for Retrieval-enhanced Emotional Video Captioning

Arxiv

0+阅读 · 3月18日

VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection

Arxiv

0+阅读 · 3月18日

IRIS-SLAM: Unified Geo-Instance Representations for Robust Semantic Localization and Mapping

Arxiv

0+阅读 · 3月18日

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Arxiv

0+阅读 · 3月18日

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

Arxiv

0+阅读 · 3月18日

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Arxiv

0+阅读 · 3月18日

UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

Arxiv

0+阅读 · 3月18日

S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight

S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight

Arxiv

0+阅读 · 3月18日

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Arxiv

0+阅读 · 3月18日

Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence

Arxiv

0+阅读 · 3月18日

EI: Early Intervention for Multimodal Imaging based Disease Recognition

EI: Early Intervention for Multimodal Imaging based Disease Recognition

Arxiv

0+阅读 · 3月18日

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

Arxiv

0+阅读 · 3月18日

参考链接

微信扫码咨询专知VIP会员