Animatable 3D assets, defined as geometry equipped with an articulated skeleton and skinning weights, are fundamental to interactive graphics, embodied agents, and animation production. While recent 3D generative models can synthesize visually plausible shapes from images, the results are typically static. Obtaining usable rigs via post-hoc auto-rigging is brittle and often produces skeletons that are topologically inconsistent with the generated geometry. We present AniGen, a unified framework that directly generates animate-ready 3D assets conditioned on a single image. Our key insight is to represent shape, skeleton, and skinning as mutually consistent $S^3$ Fields (Shape, Skeleton, Skin) defined over a shared spatial domain. To enable the robust learning of these fields, we introduce two technical innovations: (i) a confidence-decaying skeleton field that explicitly handles the geometric ambiguity of bone prediction at Voronoi boundaries, and (ii) a dual skin feature field that decouples skinning weights from specific joint counts, allowing a fixed-architecture network to predict rigs of arbitrary complexity. Built upon a two-stage flow-matching pipeline, AniGen first synthesizes a sparse structural scaffold and then generates dense geometry and articulation in a structured latent space. Extensive experiments demonstrate that AniGen substantially outperforms state-of-the-art sequential baselines in rig validity and animation quality, generalizing effectively to in-the-wild images across diverse categories including animals, humanoids, and machinery. Homepage: https://yihua7.github.io/AniGen-web/


翻译:可动画化3D资产(定义为配备有骨架与蒙皮权重的几何形体)是交互式图形学、具身智能体及动画制作的基础。尽管近期3D生成模型能从图像合成视觉上合理的形状,但其结果通常为静态。通过事后自动绑定获取可用骨架的方法较为脆弱,且往往产生与生成几何拓扑不一致的骨架。我们提出AniGen——一个以单张图像为条件、直接生成可动画化3D资产的统一框架。核心见解在于将形状、骨架与蒙皮表示为定义在共享空间域上、相互一致的$S^3$场(形状Shape、骨架Skeleton、蒙皮Skin)。为实现对此类场的鲁棒学习,我们提出两项技术创新:(i) 置信度衰减骨架场,显式处理Voronoi边界处骨骼预测的几何模糊性;(ii) 双蒙皮特征场,将蒙皮权重与特定关节数量解耦,使固定架构网络能预测任意复杂度的绑定结构。基于两阶段流匹配管线,AniGen首先生成稀疏结构骨架,随后在结构化隐空间内生成密集几何与关节结构。大量实验表明,AniGen在绑定有效性与动画质量上显著超越最先进的顺序基线方法,并能有效泛化至包括动物、人形及机械装置在内的各类野外图像。主页:https://yihua7.github.io/AniGen-web/

0
下载
关闭预览

相关内容

前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 2025年9月30日
3D形状生成:综述
专知会员服务
18+阅读 · 2025年7月7日
动态三维场景重建研究综述
专知会员服务
36+阅读 · 2024年8月23日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
23+阅读 · 2023年3月26日
SIGGRAPH 2020 | 开源代码实现从草图生成人脸
计算机视觉life
11+阅读 · 2020年7月1日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 2025年9月30日
3D形状生成:综述
专知会员服务
18+阅读 · 2025年7月7日
动态三维场景重建研究综述
专知会员服务
36+阅读 · 2024年8月23日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
23+阅读 · 2023年3月26日
相关资讯
SIGGRAPH 2020 | 开源代码实现从草图生成人脸
计算机视觉life
11+阅读 · 2020年7月1日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员