Realistic and efficient 3D garment generation remains a longstanding challenge in computer vision and digital fashion. Existing methods typically rely on large vision- language models to produce serialized representations of 2D sewing patterns, which are then transformed into simulation-ready 3D meshes using garment modeling framework such as GarmentCode. Although these approaches yield high-quality results, they often suffer from slow inference times, ranging from 30 seconds to a minute. In this work, we introduce SwiftTailor, a novel two-stage framework that unifies sewing-pattern reasoning and geometry-based mesh synthesis through a compact geometry image representation. SwiftTailor comprises two lightweight modules: PatternMaker, an efficient vision-language model that predicts sewing patterns from diverse input modalities, and GarmentSewer, an efficient dense prediction transformer that converts these patterns into a novel Garment Geometry Image, encoding the 3D surface of all garment panels in a unified UV space. The final 3D mesh is reconstructed through an efficient inverse mapping process that incorporates remeshing and dynamic stitching algorithms to directly assemble the garment, thereby amortizing the cost of physical simulation. Extensive experiments on the Multimodal GarmentCodeData demonstrate that SwiftTailor achieves state-of-the-art accuracy and visual fidelity while significantly reducing inference time. This work offers a scalable, interpretable, and high-performance solution for next-generation 3D garment generation.


翻译:在计算机视觉和数字时尚领域,实现逼真且高效的三维服装生成仍是一项长期挑战。现有方法通常依赖大型视觉语言模型生成二维缝纫线迹的序列化表示,再通过GarmentCode等服装建模框架将其转化为可模拟的三维网格。尽管这些方法能产出高质量结果,但推理时间较长(30秒至一分钟)。为此,我们提出SwiftTailor——一种新颖的两阶段框架,通过紧凑的几何图像表示统一了缝纫线迹推理与基于几何的网格合成。SwiftTailor包含两个轻量模块:PatternMaker(一种高效的视觉语言模型,能从多种输入模态预测缝纫线迹)和GarmentSewer(一种高效密集预测Transformer,可将缝纫线迹转化为新型服装几何图像,在统一UV空间中编码所有服装面板的三维表面)。最终三维网格通过结合重网格化与动态缝合算法的高效逆映射过程直接组装服装,从而分摊物理模拟的计算成本。在多模态GarmentCodeData上的大量实验表明,SwiftTailor在显著缩短推理时间的同时,实现了最先进的精度与视觉保真度。本工作为下一代三维服装生成提供了一种可扩展、可解释且高性能的解决方案。

0
下载
关闭预览

相关内容

综述|学习式3D表征最新进展与趋势
专知会员服务
9+阅读 · 6月5日
3D形状生成:综述
专知会员服务
18+阅读 · 2025年7月7日
【HKUST博士论文】单视图图像的高质量3D生成
专知会员服务
15+阅读 · 2025年1月21日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
25+阅读 · 2024年9月2日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员