Zero-Shot Captioning for Cultural Heritage: Automated Image Analysis of Traditional Indonesian Clothing - 专知论文

会员服务 ·

0

样本 · 零样本 · 数据集 · 图像描述 · CLIP ·

Zero-Shot Captioning for Cultural Heritage: Automated Image Analysis of Traditional Indonesian Clothing

翻译：文化遗产零样本图像描述：印尼传统服饰的自动化图像分析

Anugrah Aidin Yotolembah,Novanto Yudistira,Gembong Edhi Setyawan

from arxiv, accepted to ICME workshop on AIART 2026

This paper presents Custom ZeroCLIP, a retrieval-augmented vision-language framework for zero-shot captioning of Indonesian traditional garments. The dataset contains 3,800 expert-annotated images from all 38 Indonesian provinces. Using a province-level inductive zero-shot protocol, the model is trained on 24 seen provinces, validated on 6 seen provinces, and evaluated on 8 unseen provinces. The framework combines a frozen CLIP ViT-B/32 image encoder, a CLIP text encoder, a BERT text encoder, and an LSTM caption decoder. During inference, unseen-province labels and captions are unavailable, and retrieval uses only captions from training provinces. No unseen-province image, label, or caption is used during training, validation, or retrieval-bank construction. Custom ZeroCLIP achieves a CLIPScore of 0.8536, BLEU-4 of 0.3342, and METEOR of 0.4859, outperforming existing baselines. Ablation results show that retrieval improves cultural vocabulary recovery with a 19.3\% METEOR gain, while human evaluation confirms stronger cultural accuracy and fluency. The results demonstrate the effectiveness of retrieval-augmented domain adaptation for culturally grounded caption generation in low-resource heritage settings. The dataset is publicly available at https://github.com/AnugrahAidinYotolembah/Traditional-Indonesian-Clothing-Captioning-Dataset.

翻译：本文提出Custom ZeroCLIP，一种面向印尼传统服饰零样本图像描述的检索增强视觉-语言框架。数据集包含来自印尼全部38个省份的3,800张专家标注图像。通过省份级归纳式零样本协议，模型在24个已知省份上训练、6个已知省份上验证，并在8个未知省份上评估。该框架融合冻结的CLIP ViT-B/32图像编码器、CLIP文本编码器、BERT文本编码器及LSTM描述解码器。推理阶段无法获取未知省份标签与描述，检索仅依赖训练省份的描述文本。训练、验证及检索库构建过程中未使用任何未知省份的图像、标签或描述。Custom ZeroCLIP取得0.8536的CLIPScore、0.3342的BLEU-4及0.4859的METEOR，超越现有基线模型。消融研究表明检索带来19.3%的METEOR提升，显著改善文化词汇恢复能力；人工评估证实其文化准确性与流畅度更强。实验结果证明检索增强领域自适应方法在低资源文化遗产场景下生成文化契合描述的有效性。数据集公开于https://github.com/AnugrahAidinYotolembah/Traditional-Indonesian-Clothing-Captioning-Dataset。

0

相关内容

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

专知会员服务

14+阅读 · 2024年11月28日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

零样本图像分类综述

专知会员服务

52+阅读 · 2021年5月15日

基于知识的零样本视觉识别任务综述

专知会员服务

51+阅读 · 2020年12月26日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

专知会员服务

66+阅读 · 2020年4月17日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

零样本图像分类综述 : 十年进展

零样本图像分类综述 : 十年进展

专知会员服务

128+阅读 · 2019年11月16日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知会员服务

114+阅读 · 2019年10月20日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

零样本图像识别综述论文

零样本图像识别综述论文

专知

22+阅读 · 2020年4月4日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

云栖社区

22+阅读 · 2019年4月6日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知

104+阅读 · 2019年2月27日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

实践 | 如何使用深度学习为照片自动生成文本描述？

实践 | 如何使用深度学习为照片自动生成文本描述？

七月在线实验室

10+阅读 · 2018年5月21日

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

专知

50+阅读 · 2018年4月25日

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

R语言中文社区

10+阅读 · 2017年11月29日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

云南少数民族服饰数据库、元素库构建与智能检索技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向三维服装建模的形状分析与处理方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

ZeroDex: Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

Arxiv

0+阅读 · 6月19日

Transductive Zero-Shot Audio Classification with Audio-Language Models

Arxiv

0+阅读 · 6月15日

Label Shift Aware Adaptation for Online Zero-shot Learning with Contrastive Language-Image Pre-Training (CLIP)

Arxiv

0+阅读 · 6月13日

Physics-Driven Zero-Shot MRI Reconstruction with Non-local Image Priors

Arxiv

0+阅读 · 6月13日

VietFashion: Benchmarking Sketch-Text Composed Image Retrieval for Cultural Outfits

Arxiv

0+阅读 · 6月11日

Adapting Vision-Language Models from Iconic to Inclusive for Multi-Label Recognition Without Labels

Arxiv

0+阅读 · 6月10日

On Aligning Hierarchical Standardized Embedding for Audio-visual Generalized Zero-shot Learning

Arxiv

0+阅读 · 6月10日

UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval

Arxiv

0+阅读 · 4月22日

Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Arxiv

0+阅读 · 3月26日

Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

Arxiv

18+阅读 · 2018年4月8日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

如何高效识别新概念？香港理工等最新元素级零样本识别技术系统性综述

专知会员服务

14+阅读 · 2024年11月28日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

零样本图像分类综述

专知会员服务

52+阅读 · 2021年5月15日

基于知识的零样本视觉识别任务综述

专知会员服务

51+阅读 · 2020年12月26日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

专知会员服务

66+阅读 · 2020年4月17日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

零样本图像分类综述 : 十年进展

零样本图像分类综述 : 十年进展

专知会员服务

128+阅读 · 2019年11月16日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知会员服务

114+阅读 · 2019年10月20日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

零样本图像识别综述论文

零样本图像识别综述论文

专知

22+阅读 · 2020年4月4日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

云栖社区

22+阅读 · 2019年4月6日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知

104+阅读 · 2019年2月27日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

实践 | 如何使用深度学习为照片自动生成文本描述？

实践 | 如何使用深度学习为照片自动生成文本描述？

七月在线实验室

10+阅读 · 2018年5月21日

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

专知

50+阅读 · 2018年4月25日

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

shiny动态仪表盘应用 | 中国世界自然文化遗产可视化案例

R语言中文社区

10+阅读 · 2017年11月29日

相关论文

ZeroDex: Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

Arxiv

0+阅读 · 6月19日

Transductive Zero-Shot Audio Classification with Audio-Language Models

Arxiv

0+阅读 · 6月15日

Label Shift Aware Adaptation for Online Zero-shot Learning with Contrastive Language-Image Pre-Training (CLIP)

Arxiv

0+阅读 · 6月13日

Physics-Driven Zero-Shot MRI Reconstruction with Non-local Image Priors

Arxiv

0+阅读 · 6月13日

VietFashion: Benchmarking Sketch-Text Composed Image Retrieval for Cultural Outfits

Arxiv

0+阅读 · 6月11日

Adapting Vision-Language Models from Iconic to Inclusive for Multi-Label Recognition Without Labels

Arxiv

0+阅读 · 6月10日

On Aligning Hierarchical Standardized Embedding for Audio-visual Generalized Zero-shot Learning

Arxiv

0+阅读 · 6月10日

UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval

Arxiv

0+阅读 · 4月22日

Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Arxiv

0+阅读 · 3月26日

Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

Arxiv

18+阅读 · 2018年4月8日

相关基金

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

云南少数民族服饰数据库、元素库构建与智能检索技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向三维服装建模的形状分析与处理方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员