The evolutionary fitness landscape of biological molecules is extremely sparse and heterogeneous, with functional sequences forming isolated dense ``islands'' within a vast combinatorial space of largely non-functional variants. Protein sequences, in particular, exemplify this structure, yet most generative artificial intelligence models implicitly assume a homogeneous data distribution. We show that this assumption fundamentally breaks down in heterogeneous biological sequence spaces: fixed global noise levels impose a destructive trade-off, either oversmoothing dense functional clusters or fragmenting sparse regions and producing non-functional hallucinations. To address this limitation, we introduce \emph{Density-Dependent Smoothing} (DDS), a geometry-aware generative framework that adapts stochastic smoothing to the local density of the underlying sequence landscape. By inversely coupling diffusion noise to estimated sequence density, DDS enables gentle refinement in high-density functional regions while promoting controlled exploration across sparse regions. Implemented as a plug-in mechanism for discrete molecular sampling, DDS consistently outperforms state-of-the-art diffusion and autoregressive models across antibody repertoires, therapeutic antibody design, antimicrobial peptide generation and coronavirus antibody design. Together, these results show that fixed global smoothing assumptions fundamentally limit generative modeling in sparse biological sequence spaces, and that geometry-aware smoothing removes this constraint, enabling reliable exploration and design previously unattainable with fixed-noise generative models.


翻译:生物分子的进化适应度景观极其稀疏且高度异构,功能性序列在主要由非功能性变体构成的广阔组合空间中形成孤立的密集"岛屿"。蛋白质序列尤其体现了这种结构,然而大多数生成式人工智能模型隐含地假设了同质的数据分布。我们证明这种假设在异构生物序列空间中根本失效:固定的全局噪声水平会施加破坏性的权衡,要么过度平滑密集的功能簇,要么使稀疏区域碎片化并产生非功能性幻觉。为克服这一局限,我们引入了密度依赖平滑,这是一种几何感知生成框架,它将随机平滑适应于底层序列景观的局部密度。通过将扩散噪声与估计的序列密度反向耦合,DDS能够在高密度功能区域实现精细优化,同时在稀疏区域促进受控探索。作为离散分子采样的插件机制实现时,DDS在抗体库、治疗性抗体设计、抗菌肽生成和冠状病毒抗体设计等任务中持续优于最先进的扩散模型和自回归模型。这些结果表明,固定的全局平滑假设从根本上限制了稀疏生物序列空间中的生成建模,而几何感知平滑消除了这一约束,实现了以往固定噪声生成模型无法达到的可靠探索与设计。

0
下载
关闭预览

相关内容

基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
11+阅读 · 2022年8月25日
【ICML2022】模型指导下的蛋白质序列设计的近端探索
专知会员服务
11+阅读 · 2022年7月10日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员