成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
视觉语言模型
关注
5
综合
百科
VIP
热门
动态
论文
精华
Seeing to Generalize: How Visual Data Corrects Binding Shortcuts
Arxiv
0+阅读 · 2月16日
ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs
Arxiv
0+阅读 · 2月10日
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
Arxiv
0+阅读 · 2月11日
Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance
Arxiv
0+阅读 · 2月10日
Top-Down Semantic Refinement for Image Captioning
Arxiv
0+阅读 · 2月16日
MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing
Arxiv
0+阅读 · 2月6日
Thinking Like a Radiologist: A Dataset for Anatomy-Guided Interleaved Vision Language Reasoning in Chest X-ray Interpretation
Arxiv
0+阅读 · 2月13日
EigenTrack: Spectral Activation Feature Tracking for Hallucination and Out-of-Distribution Detection in LLMs and VLMs
Arxiv
0+阅读 · 2月6日
Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion
Arxiv
0+阅读 · 2月12日
Efficient Test-Time Scaling for Small Vision-Language Models
Arxiv
0+阅读 · 2月16日
IndicFairFace: Balanced Indian Face Dataset for Auditing and Mitigating Geographical Bias in Vision-Language Models
Arxiv
0+阅读 · 2月13日
Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding
Arxiv
0+阅读 · 2月13日
Lan-grasp: Using Large Language Models for Semantic Object Grasping and Placement
Arxiv
0+阅读 · 2月6日
Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models
Arxiv
0+阅读 · 2月12日
Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures
Arxiv
0+阅读 · 2月11日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top