LoST: Level of Semantics Tokenization for 3D Shapes - 专知论文

会员服务 ·

0

LoST: Level of Semantics Tokenization for 3D Shapes

翻译：LoST：三维形状的语义层级分词

Niladri Shekhar Dutt,Zifan Shi,Paul Guerrero,Chun-Hao Paul Huang,Duygu Ceylan,Niloy J. Mitra,Xuelin Chen

from arxiv, CVPR 2026; Project website-- https://lost3d.github.io

Tokenization is a fundamental technique in the generative modeling of various modalities. In particular, it plays a critical role in autoregressive (AR) models, which have recently emerged as a compelling option for 3D generation. However, optimal tokenization of 3D shapes remains an open question. State-of-the-art (SOTA) methods primarily rely on geometric level-of-detail (LoD) hierarchies, originally designed for rendering and compression. These spatial hierarchies are often token-inefficient and lack semantic coherence for AR modeling. We propose Level-of-Semantics Tokenization (LoST), which orders tokens by semantic salience, such that early prefixes decode into complete, plausible shapes that possess principal semantics, while subsequent tokens refine instance-specific geometric and semantic details. To train LoST, we introduce Relational Inter-Distance Alignment (RIDA), a novel 3D semantic alignment loss that aligns the relational structure of the 3D shape latent space with that of the semantic DINO feature space. Experiments show that LoST achieves SOTA reconstruction, surpassing previous LoD-based 3D shape tokenizers by large margins on both geometric and semantic reconstruction metrics. Moreover, LoST achieves efficient, high-quality AR 3D generation and enables downstream tasks like semantic retrieval, while using only 0.1%-10% of the tokens needed by prior AR models.

翻译：分词是多模态生成建模中的基础技术，尤其在近期成为三维生成领域热门方向的自回归模型中扮演关键角色。然而，三维形状的最优分词仍是一个开放问题。当前最先进方法主要依赖最初为渲染与压缩设计的几何细节层级(LoD)层次结构，这些空间层次结构通常存在分词效率低、缺乏语义连贯性等缺陷，不利于自回归建模。我们提出语义层级分词(LoST)，按语义显著性对词元排序，使早期前缀解码为具备主要语义的完整合理形状，后续词元则细化实例特定的几何与语义细节。为训练LoST，我们引入关系性距离对齐(RIDA)——一种新型三维语义对齐损失函数，用于对齐三维形状隐空间的关系结构与语义DINO特征空间的关系结构。实验表明，LoST在几何与语义重建指标上均大幅超越现有基于LoD的三维形状分词器，达到最先进重建水平。此外，LoST能实现高效高质量的自回归三维生成，仅需先前自回归模型0.1%-10%的词元数量即可支持语义检索等下游任务。

0

相关内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

专知会员服务

7+阅读 · 2025年5月27日

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

专知会员服务

13+阅读 · 2025年1月18日

大型语言模型中的数字遗忘：遗忘方法的综述

大型语言模型中的数字遗忘：遗忘方法的综述

专知会员服务

33+阅读 · 2024年4月8日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

71+阅读 · 2023年1月17日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

一文看尽15种语义分割损失函数（含代码解析）

一文看尽15种语义分割损失函数（含代码解析）

CVer

82+阅读 · 2020年7月2日

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

专知

20+阅读 · 2019年11月13日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

函数空间的拓扑分类

国家自然科学基金

1+阅读 · 2014年12月31日

面向三维服装建模的形状分析与处理方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

3D-ReGen: A Unified 3D Geometry Regeneration Framework

Arxiv

0+阅读 · 4月30日

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Arxiv

0+阅读 · 4月30日

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

Arxiv

0+阅读 · 4月20日

SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

Arxiv

0+阅读 · 4月17日

MUTANT: A Recipe for Multilingual Tokenizer Design

Arxiv

0+阅读 · 3月22日

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Arxiv

0+阅读 · 3月19日

SegviGen: Repurposing 3D Generative Model for Part Segmentation

Arxiv

0+阅读 · 3月17日

EI-Part: Explode for Completion and Implode for Refinement

Arxiv

0+阅读 · 3月14日

Losing dimensions: Geometric memorization in generative diffusion

Arxiv

0+阅读 · 3月11日

LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

4+阅读 · 今天12:53

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

3+阅读 · 今天12:39

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

2+阅读 · 今天12:32

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

1+阅读 · 今天12:25

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

1+阅读 · 今天12:14

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

0+阅读 · 今天12:08

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

5+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

专知会员服务

7+阅读 · 2025年5月27日

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

专知会员服务

13+阅读 · 2025年1月18日

大型语言模型中的数字遗忘：遗忘方法的综述

大型语言模型中的数字遗忘：遗忘方法的综述

专知会员服务

33+阅读 · 2024年4月8日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

71+阅读 · 2023年1月17日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

一文看尽15种语义分割损失函数（含代码解析）

一文看尽15种语义分割损失函数（含代码解析）

CVer

82+阅读 · 2020年7月2日

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

【EMNLP2019教程】分布式词向量表示，附239页PPT下载

专知

20+阅读 · 2019年11月13日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

相关论文

3D-ReGen: A Unified 3D Geometry Regeneration Framework

Arxiv

0+阅读 · 4月30日

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Arxiv

0+阅读 · 4月30日

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

Arxiv

0+阅读 · 4月20日

SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

Arxiv

0+阅读 · 4月17日

MUTANT: A Recipe for Multilingual Tokenizer Design

Arxiv

0+阅读 · 3月22日

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Arxiv

0+阅读 · 3月19日

SegviGen: Repurposing 3D Generative Model for Part Segmentation

Arxiv

0+阅读 · 3月17日

EI-Part: Explode for Completion and Implode for Refinement

Arxiv

0+阅读 · 3月14日

Losing dimensions: Geometric memorization in generative diffusion

Arxiv

0+阅读 · 3月11日

LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Arxiv

0+阅读 · 2月20日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

函数空间的拓扑分类

国家自然科学基金

1+阅读 · 2014年12月31日

面向三维服装建模的形状分析与处理方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员