视觉语义论文 - 专知

会员服务 ·

视觉语义

Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics

Arxiv

0+阅读 · 4月27日

SEG-JPEG: Simple Visual Semantic Communications for Remote Operation of Automated Vehicles over Unreliable Wireless Networks

Arxiv

0+阅读 · 2月16日

Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

Arxiv

0+阅读 · 2月17日

SEMNAV: Enhancing Visual Semantic Navigation in Robotics through Semantic Segmentation

Arxiv

0+阅读 · 2月3日

Semantic visually-guided acoustic highlighting with large vision-language models

Arxiv

0+阅读 · 1月12日

A Visual Semantic Adaptive Watermark grounded by Prefix-Tuning for Large Vision-Language Model

Arxiv

0+阅读 · 1月12日

Affordance RAG: Hierarchical Multimodal Retrieval with Affordance-Aware Embodied Memory for Mobile Manipulation

Arxiv

0+阅读 · 2025年12月22日

AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control

Arxiv

0+阅读 · 2025年11月26日

Visual Semantic Relatedness Dataset for Image Captioning

Arxiv

1+阅读 · 2023年4月30日

Improved Diffusion-based Image Colorization via Piggybacked Models

Arxiv

0+阅读 · 2023年4月21日

Image-text Retrieval via preserving main Semantics of Vision

Arxiv

0+阅读 · 2023年4月20日

Segment Everything Everywhere All at Once

Arxiv

3+阅读 · 2023年4月13日

VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic Self-Supervision

Arxiv

0+阅读 · 2023年4月6日

A Closer Look at Audio-Visual Semantic Segmentation

Arxiv

1+阅读 · 2023年4月6日

Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA

Arxiv

0+阅读 · 2023年4月4日

参考链接

微信扫码咨询专知VIP会员