成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
计算机视觉
关注
32557
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
综合
百科
荟萃
VIP
热门
动态
论文
精华
Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search
Arxiv
1+阅读 · 3月18日
M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation
Arxiv
0+阅读 · 3月18日
AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization
Arxiv
0+阅读 · 3月18日
FACE-net: Factual Calibration and Emotion Augmentation for Retrieval-enhanced Emotional Video Captioning
Arxiv
0+阅读 · 3月18日
VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection
Arxiv
0+阅读 · 3月18日
IRIS-SLAM: Unified Geo-Instance Representations for Robust Semantic Localization and Mapping
Arxiv
0+阅读 · 3月18日
SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model
Arxiv
0+阅读 · 3月18日
PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation
Arxiv
0+阅读 · 3月18日
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models
Arxiv
0+阅读 · 3月18日
UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models
Arxiv
0+阅读 · 3月18日
S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight
Arxiv
0+阅读 · 3月18日
Echo Planning for Autonomous Driving: From Current Observations to Future Trajectories and Back
Arxiv
0+阅读 · 3月18日
Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence
Arxiv
0+阅读 · 3月18日
EI: Early Intervention for Multimodal Imaging based Disease Recognition
Arxiv
0+阅读 · 3月18日
UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection
Arxiv
0+阅读 · 3月18日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top