图像描述论文 - 专知

会员服务 ·

图像描述

CIAN: Multi-Stage Framework for Event-Enriched Image Captioning via Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月16日

Connecting Speech to Words through Images

Arxiv

0+阅读 · 6月15日

Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning

Arxiv

0+阅读 · 6月13日

Zero-Shot Captioning for Cultural Heritage: Automated Image Analysis of Traditional Indonesian Clothing

Arxiv

0+阅读 · 6月11日

DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions

Arxiv

0+阅读 · 4月7日

HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning

Arxiv

0+阅读 · 3月24日

Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning

Arxiv

0+阅读 · 3月2日

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Arxiv

0+阅读 · 2月26日

VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment

Arxiv

0+阅读 · 2月17日

Top-Down Semantic Refinement for Image Captioning

Arxiv

0+阅读 · 2月16日

How University Disability Services Professionals Write Image Descriptions for HCI Figures Using Generative AI

Arxiv

0+阅读 · 2月9日

Contextualized Visual Personalization in Vision-Language Models

Arxiv

0+阅读 · 2月3日

Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain

Arxiv

0+阅读 · 1月14日

Dual-Stream Collaborative Transformer for Image Captioning

Arxiv

0+阅读 · 1月19日

CPJ: Explainable Agricultural Pest Diagnosis via Caption-Prompt-Judge with LLM-Judged Refinement

Arxiv

0+阅读 · 2025年12月31日

参考链接

微信扫码咨询专知VIP会员