计算机视觉论文 - 专知

会员服务 ·

计算机视觉

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search

Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search

Arxiv

1+阅读 · 3月18日

M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation

Arxiv

0+阅读 · 3月18日

AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization

Arxiv

0+阅读 · 3月18日

FACE-net: Factual Calibration and Emotion Augmentation for Retrieval-enhanced Emotional Video Captioning

FACE-net: Factual Calibration and Emotion Augmentation for Retrieval-enhanced Emotional Video Captioning

Arxiv

0+阅读 · 3月18日

VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection

Arxiv

0+阅读 · 3月18日

IRIS-SLAM: Unified Geo-Instance Representations for Robust Semantic Localization and Mapping

Arxiv

0+阅读 · 3月18日

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Arxiv

0+阅读 · 3月18日

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

Arxiv

0+阅读 · 3月18日

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Arxiv

0+阅读 · 3月18日

UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

Arxiv

0+阅读 · 3月18日

S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight

S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight

Arxiv

0+阅读 · 3月18日

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back

Arxiv

0+阅读 · 3月18日

Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence

Arxiv

0+阅读 · 3月18日

EI: Early Intervention for Multimodal Imaging based Disease Recognition

EI: Early Intervention for Multimodal Imaging based Disease Recognition

Arxiv

0+阅读 · 3月18日

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

Arxiv

0+阅读 · 3月18日

参考链接

微信扫码咨询专知VIP会员