Generative AI has advanced the ability to render photorealistic or artistic images, yet it remains limited in a key aspect of human creativity: interpreting ambiguous shapes. This phenomenon, rooted in pareidolia, allows humans to perceive meaningful forms in random patterns such as clouds, stones, or leaves. To computationally replicate this imaginative process, we introduce Visual Retrieval-Augmented Generation (Visual-RAG), a framework that generates animal art directly from natural silhouettes. Our method retrieves structurally similar animal shapes from a curated corpus of 28,586 high-quality silhouettes and uses them as reference exemplars to guide diffusion-based generation with ControlNet and IP-Adapter. Ablation studies confirm that shape Context with RANSAC provides the most accurate alignment, while removing shape standardization reduces the inlier ratio to just 13.4\%, underscoring the importance of structural fidelity in Visual-RAG. A user study with 12 participants evaluated the outputs in terms of aesthetics, silhouette fidelity, and overall impression. Results reveal that while Visual-RAG provides plausible interpretations, challenges remain in achieving high perceptual impact. This work lays the foundation for computational pareidolia, showing how machines can contribute to the early stages of imaginative discovery.


翻译:生成式人工智能已具备生成逼真或艺术图像的能力,但在人类创造力的关键方面仍存在局限:解读模糊形状。这一根植于空想性错觉的现象,使人类能够从云朵、石头或树叶等随机图案中感知出有意义的形式。为了在计算层面复现这一想象过程,我们提出了视觉检索增强生成(Visual-RAG)框架,该系统可直接从自然轮廓生成动物艺术。我们的方法从包含28,586个高质量轮廓的精选语料库中检索结构相似的动物形状,并将其作为参考范例,通过ControlNet和IP-Adapter引导基于扩散模型的生成过程。消融实验证实,结合RANSAC的形状上下文能提供最精确的配准,而移除形状标准化后内点率骤降至13.4%,凸显了结构保真度在Visual-RAG中的重要性。一项包含12名参与者的用户研究从美学效果、轮廓保真度和整体印象三个维度评估输出结果。结果表明,尽管Visual-RAG能提供合理的解读,但在实现高感知冲击力方面仍面临挑战。本工作为计算空想性错觉奠定了基础,展示了机器如何参与想象发现过程的早期阶段。

0
下载
关闭预览

相关内容

视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
工业机器视觉中的生成式人工智能综述
专知会员服务
52+阅读 · 2024年9月1日
【NTU博士论文】基于深度学习的图像与视频生成,146页pdf
深度对抗视觉生成综述
专知会员服务
34+阅读 · 2021年12月29日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关资讯
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员