Generating property-optimized mRNA sequences is central to applications such as vaccine design and protein replacement therapy, but remains challenging due to limited data, complex sequence-function relationships, and the narrow space of biologically viable sequences. Generative methods that drift away from the data manifold can yield sequences that fail to fold, translate poorly, or are otherwise nonfunctional. We present RNAGenScape, a property-guided manifold Langevin dynamics framework for mRNA sequence generation that operates directly on a learned manifold of real data. By performing iterative local optimization constrained to this manifold, RNAGenScape preserves biological viability, accesses reliable guidance, and avoids excursions into nonfunctional regions of the ambient sequence space. The framework integrates three components: (1) an autoencoder jointly trained with a property predictor to learn a property-organized latent manifold, (2) a denoising autoencoder that projects updates back onto the manifold, and (3) a property-guided Langevin dynamics procedure that performs optimization along the manifold. Across three real-world mRNA datasets spanning two orders of magnitude in size, RNAGenScape increases median property gain by up to 148% and success rate by up to 30% while ensuring biological viability of generated sequences, and achieves competitive inference efficiency relative to existing generative approaches.


翻译:生成属性优化的mRNA序列是疫苗设计和蛋白质替代疗法等应用的核心,但由于数据有限、序列-功能关系复杂以及生物可行序列空间狭窄,该任务仍面临挑战。若生成方法偏离数据流形,则可能产生折叠失败、翻译效率低下或其他功能缺陷的序列。本文提出RNAGenScape——一种直接在真实数据学习流形上运行的、属性引导的流形朗之万动力学mRNA序列生成框架。通过在该流形约束下执行迭代局部优化,RNAGenScape能保持生物可行性、获取可靠引导,并避免偏离到环境序列空间的非功能区域。该框架整合了三个组件:(1) 与属性预测器联合训练以学习属性组织潜在流形的自编码器;(2) 将更新投影回流形的去噪自编码器;(3) 沿流形执行优化的属性引导朗之万动力学过程。在跨越两个数量级规模的三个真实mRNA数据集上,RNAGenScape将中位数属性增益提升最高达148%,成功率提升最高达30%,同时确保生成序列的生物可行性,并相较于现有生成方法实现了具有竞争力的推理效率。

0
下载
关闭预览

相关内容

详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员