We study abstract visual composition, in which identity is primarily determined by the spatial configuration and relations among a small set of geometric primitives (e.g., parts, symmetry, topology). They are invariant primarily to texture and photorealistic detail. Composing such structures from fixed components under geometric constraints and vague goal specification (such as text) is non-trivial due to combinatorial placement choices, limited data, and discrete feasibility (overlap-free, allowable orientations), which create a sparse solution manifold ill-suited to purely statistical pixel-space generators. We propose a constraint-guided framework that combines explicit geometric reasoning with neural semantics. An AlphaGo-style search enforces feasibility, while a fine-tuned vision-language model scores semantic alignment as reward signals. Our algorithm uses a policy network as a heuristic in Monte-Carlo Tree Search and fine-tunes the network via search-generated plans. Inspired by the Generative Adversarial Network, we use the generated instances for adversarial reward refinement. Over time, the generation should approach the actual data more closely when the reward model cannot distinguish between generated instances and ground-truth. In the Tangram Assembly task, our approach yields higher validity and semantic fidelity than diffusion and auto-regressive baselines, especially as constraints tighten.


翻译:本研究探讨抽象视觉构图问题,其本质特征主要由少量几何基元(如部件、对称性、拓扑结构)的空间配置与关系决定。此类构图对纹理和逼真细节具有高度不变性。在几何约束与模糊目标描述(如文本)条件下,使用固定组件构建此类结构具有挑战性:组合布局选择空间巨大、可用数据有限、离散可行性条件(无重叠、允许朝向)严格,导致解空间稀疏,不适用于纯统计的像素空间生成器。我们提出一种约束引导框架,将显式几何推理与神经语义相结合:采用AlphaGo式搜索确保可行性,同时通过微调的视觉语言模型评估语义对齐度作为奖励信号。算法使用策略网络作为蒙特卡洛树搜索的启发函数,并借助搜索生成的规划方案对网络进行微调。受生成对抗网络启发,我们利用生成实例进行对抗式奖励优化——随着奖励模型逐渐无法区分生成实例与真实数据,生成结果将不断逼近实际数据分布。在七巧板拼图任务中,本方法在有效性和语义保真度上均优于扩散模型与自回归基线,且在约束收紧时优势尤为显著。

0
下载
关闭预览

相关内容

《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
专知会员服务
56+阅读 · 2021年9月3日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
专知会员服务
56+阅读 · 2021年9月3日
相关资讯
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员