Collaposer：将照片集转化为视觉素材以支持拼贴叙事 (Collaposer: Transforming Photo Collections into Visual Assets for Storytelling with Collages) - 专知论文

会员服务 ·

0

艺术 · 识别 · 工具 · 有序 · 分割 ·

Collaposer: Transforming Photo Collections into Visual Assets for Storytelling with Collages

翻译：Collaposer：将照片集转化为视觉素材以支持拼贴叙事

Jiayi Zhou,Liwenhan Xie,Jiaju Ma,Zheng Wei,Huamin Qu,Anyi Rao

from arxiv, To be published at ACM CHI 2026 Conference on Human Factors in Computing Systems

Digital collage is an artistic practice that combines image cutouts to tell stories. However, preparing cutouts from a set of photos remains a tedious and time-consuming task. A formative study identified three main challenges: 1) inefficient search for relevant photos, 2) manual image cutout, and 3) difficulty in organizing large sets of cutouts. To meet these challenges and facilitate asset preparation for collage, we propose Collaposer, a tool that transforms a collection of photos into organized, ready-to-use visual cutouts based on user-provided story descriptions. Collaposer tags, detects, and segments photos, and then uses an LLM to select central and related labels based on the user-provided story description. Collaposer presents the resulting visuals in varying sizes, clustered according to semantic hierarchy. Our evaluation shows that Collaposer effectively automates the preparation process to produce diverse sets of visual cutouts adhering to the storyline, allowing users to focus on collaging these assets for storytelling. Project website: https://jiayzhou.github.io/collaposer-website/

翻译：数字拼贴是一种通过组合图像剪裁来讲述故事的艺术实践。然而，从一组照片中准备剪裁素材仍然是一项繁琐且耗时的任务。一项形成性研究识别出三个主要挑战：1) 搜索相关照片效率低下，2) 需手动进行图像剪裁，3) 难以组织大量剪裁素材。为应对这些挑战并促进拼贴素材的准备，我们提出了Collaposer，该工具能够根据用户提供的故事描述，将照片集转化为组织有序、可直接使用的视觉剪裁素材。Collaposer对照片进行标记、检测与分割，随后利用大型语言模型（LLM）基于用户提供的故事描述选择核心及相关标签。Collaposer以不同尺寸呈现生成的视觉素材，并依据语义层次进行聚类。我们的评估表明，Collaposer能有效自动化素材准备流程，生成符合故事线的多样化视觉剪裁素材集，从而使用户能够专注于利用这些素材进行拼贴叙事。项目网站：https://jiayzhou.github.io/collaposer-website/

0

相关内容

艺术迄今依旧没有公认的定义，目前广义的艺术乃是由具有智能思考能力的动物，透过各种形式及工具以表达其情感与意识，因而产生的结果。艺术不只存在于人类社会中，也存在于其他相对高等的动物。

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

图数据库在政府中的应用，Graphs in Government Fulfilling Your Mission with Neo4j

图数据库在政府中的应用，Graphs in Government Fulfilling Your Mission with Neo4j

专知会员服务

18+阅读 · 2022年4月8日

如何造出逼真图像？南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作

如何造出逼真图像？南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作

专知会员服务

51+阅读 · 2022年3月9日

【南洋理工大学Chuanxia Zheng博士论文】基于深度生成学习的逼真图像合成，197页pdf，Synthesizing Photorealistic Images with Deep Generative Learning

【南洋理工大学Chuanxia Zheng博士论文】基于深度生成学习的逼真图像合成，197页pdf，Synthesizing Photorealistic Images with Deep Generative Learning

专知会员服务

20+阅读 · 2022年3月9日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

干货｜全景视频拼接的关键技术分析

干货｜全景视频拼接的关键技术分析

全球人工智能

13+阅读 · 2017年7月15日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

MetaSeal: Defending Against Image Attribution Forgery Through Content-Dependent Cryptographic Watermarks

Arxiv

0+阅读 · 2月13日

PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

Arxiv

0+阅读 · 2月12日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

Towards Scalable Visual Data Wrangling via Direct Manipulation

Arxiv

0+阅读 · 2月7日

Compendia: Automated Visual Storytelling Generation from Online Article Collection

Arxiv

0+阅读 · 2月7日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 2月6日

VisRefiner: Learning from Visual Differences for Screenshot-to-Code Generation

Arxiv

0+阅读 · 2月5日

HistoryPalette: Supporting Exploration and Reuse of Past Alternatives in Image Generation and Editing

Arxiv

0+阅读 · 2月4日

PrevizWhiz: Combining Rough 3D Scenes and 2D Video to Guide Generative Video Previsualization

Arxiv

0+阅读 · 2月3日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

相关VIP内容

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

图数据库在政府中的应用，Graphs in Government Fulfilling Your Mission with Neo4j

图数据库在政府中的应用，Graphs in Government Fulfilling Your Mission with Neo4j

专知会员服务

18+阅读 · 2022年4月8日

如何造出逼真图像？南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作

如何造出逼真图像？南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作

专知会员服务

51+阅读 · 2022年3月9日

【南洋理工大学Chuanxia Zheng博士论文】基于深度生成学习的逼真图像合成，197页pdf，Synthesizing Photorealistic Images with Deep Generative Learning

【南洋理工大学Chuanxia Zheng博士论文】基于深度生成学习的逼真图像合成，197页pdf，Synthesizing Photorealistic Images with Deep Generative Learning

专知会员服务

20+阅读 · 2022年3月9日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

干货｜全景视频拼接的关键技术分析

干货｜全景视频拼接的关键技术分析

全球人工智能

13+阅读 · 2017年7月15日

相关论文

MetaSeal: Defending Against Image Attribution Forgery Through Content-Dependent Cryptographic Watermarks

Arxiv

0+阅读 · 2月13日

PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

Arxiv

0+阅读 · 2月12日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

Towards Scalable Visual Data Wrangling via Direct Manipulation

Arxiv

0+阅读 · 2月7日

Compendia: Automated Visual Storytelling Generation from Online Article Collection

Arxiv

0+阅读 · 2月7日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 2月6日

VisRefiner: Learning from Visual Differences for Screenshot-to-Code Generation

Arxiv

0+阅读 · 2月5日

HistoryPalette: Supporting Exploration and Reuse of Past Alternatives in Image Generation and Editing

Arxiv

0+阅读 · 2月4日

PrevizWhiz: Combining Rough 3D Scenes and 2D Video to Guide Generative Video Previsualization

Arxiv

0+阅读 · 2月3日

Vidmento: Creating Video Stories Through Context-Aware Expansion With Generative Video

Arxiv

0+阅读 · 1月29日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员