视觉语言模型论文 - 专知

会员服务 ·

视觉语言模型

视觉语言模型

HSQ-VLM: A Novel Spatially-Constrained Quadrant Segmentation VLM Model for Explainability in Diabetic Retinopathy

Arxiv

0+阅读 · 6月11日

TimeVista: Exploring and Exploiting Vision-Language Models as Judges for Time Series Forecasting

Arxiv

0+阅读 · 6月15日

Calibrated Triage, Not Autonomy: Confidence Estimation for Medical Vision-Language Models

Arxiv

0+阅读 · 6月14日

Comparing Human Gaze and Vision-Language Model Attention in Safety-Relevant Environments

Arxiv

0+阅读 · 6月13日

FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection

Arxiv

0+阅读 · 5月29日

UNIVID: Unified Vision-Language Model for Video Moderation

Arxiv

0+阅读 · 6月4日

Guided Diffusion with Distilled Vision-Language Reliability for Aerial Navigation

Arxiv

0+阅读 · 6月11日

Evolving to the Aesthetics of a Vision-Language Model

Arxiv

0+阅读 · 5月27日

Self-Evolving Visual Questioner

Arxiv

0+阅读 · 6月11日

A Pilot Study on Curator-Guided Multilingual Art Description for Blind and Low-Vision Audiences with Small Vision-Language Models

Arxiv

0+阅读 · 5月29日

What to Test Next: Interpretable Coverage Gap Discovery in Driving VLMs

Arxiv

0+阅读 · 6月2日

VectorArk: Learning Practical Image Vectorization with Rounded Polygon Representation

Arxiv

0+阅读 · 5月23日

Magnifying What Matters: Attention-Guided Adaptive Rendering for Visual Text Comprehension

Arxiv

0+阅读 · 6月11日

GAE: Unleashing Physical Potential of VLM with Generalizable Action Expert

Arxiv

0+阅读 · 6月11日

Diffusion-based Cumulative Adversarial Purification for Vision Language Models

Arxiv

0+阅读 · 6月10日

参考链接

微信扫码咨询专知VIP会员