Generative models for de novo protein backbone design have achieved remarkable success in creating novel protein structures. However, these diffusion-based approaches remain computationally intensive and slower than desired for large-scale structural exploration. While recent efforts like Proteina have introduced flow-matching to improve sampling efficiency, the potential of tokenization for structural compression and acceleration remains largely unexplored in the protein domain. In this work, we present SaDiT, a novel framework that accelerates protein backbone generation by integrating SaProt Tokenization with a Diffusion Transformer (DiT) architecture. SaDiT leverages a discrete latent space to represent protein geometry, significantly reducing the complexity of the generation process while maintaining theoretical SE(3) equivalence. To further enhance efficiency, we introduce an IPA Token Cache mechanism that optimizes the Invariant Point Attention (IPA) layers by reusing computed token states during iterative sampling. Experimental results demonstrate that SaDiT outperforms state-of-the-art models, including RFDiffusion and Proteina, in both computational speed and structural viability. We evaluate our model across unconditional backbone generation and fold-class conditional generation tasks, where SaDiT shows superior ability to capture complex topological features with high designability.


翻译:用于从头设计蛋白质骨架的生成模型在创建新颖蛋白质结构方面取得了显著成功。然而,这些基于扩散的方法计算量仍然很大,对于大规模结构探索而言,其速度仍低于预期。尽管近期如Proteina等工作引入了流匹配以提高采样效率,但标记化在蛋白质领域用于结构压缩与加速的潜力在很大程度上仍未得到探索。在本工作中,我们提出了SaDiT,这是一个通过将SaProt标记化与扩散Transformer(DiT)架构相结合来加速蛋白质骨架生成的新型框架。SaDiT利用离散潜在空间来表示蛋白质几何结构,在保持理论SE(3)等变性的同时,显著降低了生成过程的复杂性。为了进一步提升效率,我们引入了IPA令牌缓存机制,通过在迭代采样过程中重用计算得到的令牌状态,来优化不变点注意力(IPA)层。实验结果表明,SaDiT在计算速度和结构可行性方面均优于包括RFDiffusion和Proteina在内的最先进模型。我们在无条件骨架生成和折叠类条件生成任务上评估了我们的模型,SaDiT在这些任务中展现出捕获复杂拓扑特征并实现高可设计性的卓越能力。

0
下载
关闭预览

相关内容

【ICML2025】基于柔性条件的蛋白质结构设计与流匹配
专知会员服务
10+阅读 · 2025年8月26日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICML2025】基于柔性条件的蛋白质结构设计与流匹配
专知会员服务
10+阅读 · 2025年8月26日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员