ENSEMBITS: an alphabet of protein conformational ensembles - 专知论文

会员服务 ·

0

词元分析器 · Conformer · 集成 · Alphabet · 特化 ·

ENSEMBITS: an alphabet of protein conformational ensembles

翻译：暂无翻译

Kaiwen Shi,Carlos Oliver

Protein structure tokenizers (PSTs) are workhorses in protein language modeling, function prediction, and evolutionary analysis. However, existing PSTs only capture local geometry of static structures, and miss the correlated motions and alternative conformational states revealed by protein ensembles. Here we introduce Ensembits, the first tokenizer of protein conformational ensembles. Ensembits address challenges inherent to tokenizing dynamics: deriving informative geometric descriptors across conformations, permutation-invariance encoding of variable-size ensembles, and conquering sparsity in dynamics data. Trained with a Residual VQ-VAE using a frame distillation objective on a large molecular dynamics corpus, Ensembits outperforms all related methods on RMSF prediction, and is the strongest standalone structural tokenizer on an token-conditioned ANOVA test on per-residue motion amplitude. Ensembits further matches or exceeds static tokenizers on EC, GO, binding site/affinity prediction, and zero-shot mutation-effect prediction despite using far less pretraining data. Notably, the distillation objective enables Ensembits to predict dynamics token from one single predicted structure, which alleviates dynamics data sparsity. As the field moves from static structure prediction toward ensemble generation, Ensembits offer the discrete vocabulary needed to bring dynamics into protein language modeling and design.

翻译：暂无翻译

0

相关内容

词元分析器

词元分析器

ACL2025 | 探讨科学语言模型的安全问题：借助知识偏好强化可控安全的蛋白质生成

ACL2025 | 探讨科学语言模型的安全问题：借助知识偏好强化可控安全的蛋白质生成

专知会员服务

6+阅读 · 2025年6月6日

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

专知会员服务

10+阅读 · 2024年12月5日

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

专知会员服务

15+阅读 · 2024年10月18日

ICLR2023：通过提示学习的蛋白质多级结构预训练

ICLR2023：通过提示学习的蛋白质多级结构预训练

专知会员服务

12+阅读 · 2023年11月26日

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

专知会员服务

11+阅读 · 2022年10月17日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

Science | ProteinMPNN : 基于深度学习的蛋白序列设计

Science | ProteinMPNN : 基于深度学习的蛋白序列设计

专知会员服务

12+阅读 · 2022年9月18日

Nat. Biotechnol. | 用机器学习预测多肽质谱库

Nat. Biotechnol. | 用机器学习预测多肽质谱库

专知会员服务

18+阅读 · 2022年9月12日

综述：基于进化和物理启发建模的计算蛋白设计

综述：基于进化和物理启发建模的计算蛋白设计

专知会员服务

16+阅读 · 2022年9月12日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

赛尔译文｜基础模型的风险与机遇（五）

赛尔译文｜基础模型的风险与机遇（五）

哈工大SCIR

11+阅读 · 2021年11月30日

赛尔译文 | 基础模型的机遇与风险（三）

赛尔译文 | 基础模型的机遇与风险（三）

哈工大SCIR

12+阅读 · 2021年10月26日

NLP新宠 | 浅谈Prompt的前世今生

NLP新宠 | 浅谈Prompt的前世今生

机器学习与推荐算法

14+阅读 · 2021年8月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Jacob Eisenstein《自然语言处理》最新经典教材免费分享

Jacob Eisenstein《自然语言处理》最新经典教材免费分享

深度学习与NLP

24+阅读 · 2019年2月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

CRISPR/Cas9介导的基因组进化构建固态发酵耐热酵母及机理研究

国家自然科学基金

0+阅读 · 2016年12月31日

肥胖相关Hepatokine LECT2在肝脏中的调控及机制

国家自然科学基金

1+阅读 · 2015年12月31日

表征天然丰度酵母细胞色素c多构象的液体14N NMR方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

9.6nm高密度脂蛋白结构与功能的透射电子显微镜与分子动力学模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

与RNA、DNA及蛋白质绑定的固有无序片段的分析及预测

国家自然科学基金

2+阅读 · 2015年12月31日

基因表达专题讲习班

国家自然科学基金

2+阅读 · 2015年4月30日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

鸡功能候选基因拷贝数变异、单核苷酸多态等对鸡重要经济性状的综合影响及其分子调控机制

国家自然科学基金

0+阅读 · 2014年12月31日

The Energy Consumption of Transformer Fine-Tuning: A Roofline-Inspired Scaling Model

Arxiv

0+阅读 · 6月22日

Prime Fourier Embeddings: A Principled Basis for Modular Arithmetic

Arxiv

0+阅读 · 6月22日

On the Asymptotic Inadmissibility of Double Machine Learning Estimators Under Structure-Agnostic Models

Arxiv

0+阅读 · 6月21日

Brain-Inspired Stochastic Joint Embedding Representation Learning

Arxiv

0+阅读 · 6月19日

MBRarefy: data-adaptive multi-bin rarefying for alpha diversity association analysis

Arxiv

0+阅读 · 6月19日

KEPLA: A Knowledge-Enhanced Deep Learning Framework for Accurate Protein-Ligand Binding Affinity Prediction

Arxiv

0+阅读 · 6月17日

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

Arxiv

0+阅读 · 6月17日

SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding

Arxiv

0+阅读 · 6月17日

Contextualizing Biological Language Models across Modalities via Logit-Space Contrastive Alignment

Arxiv

0+阅读 · 6月17日

STRIDE: Post-Training LLMs to Reason and Refine Bio-Sequences via Edit Trajectories

Arxiv

0+阅读 · 6月16日

VIP会员

文章信息

相关主题

词元分析器

最新内容

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 3分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 15分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 26分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 35分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 39分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 43分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 47分钟前

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

相关VIP内容

ACL2025 | 探讨科学语言模型的安全问题：借助知识偏好强化可控安全的蛋白质生成

ACL2025 | 探讨科学语言模型的安全问题：借助知识偏好强化可控安全的蛋白质生成

专知会员服务

6+阅读 · 2025年6月6日

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

专知会员服务

10+阅读 · 2024年12月5日

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

专知会员服务

15+阅读 · 2024年10月18日

ICLR2023：通过提示学习的蛋白质多级结构预训练

ICLR2023：通过提示学习的蛋白质多级结构预训练

专知会员服务

12+阅读 · 2023年11月26日

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

专知会员服务

11+阅读 · 2022年10月17日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

Science | ProteinMPNN : 基于深度学习的蛋白序列设计

Science | ProteinMPNN : 基于深度学习的蛋白序列设计

专知会员服务

12+阅读 · 2022年9月18日

Nat. Biotechnol. | 用机器学习预测多肽质谱库

Nat. Biotechnol. | 用机器学习预测多肽质谱库

专知会员服务

18+阅读 · 2022年9月12日

综述：基于进化和物理启发建模的计算蛋白设计

综述：基于进化和物理启发建模的计算蛋白设计

专知会员服务

16+阅读 · 2022年9月12日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

美以伊冲突：无人机与人工智能的运用

《特种部队在透明战场中的生存力》最新报告

相关资讯

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

赛尔译文｜基础模型的风险与机遇（五）

赛尔译文｜基础模型的风险与机遇（五）

哈工大SCIR

11+阅读 · 2021年11月30日

赛尔译文 | 基础模型的机遇与风险（三）

赛尔译文 | 基础模型的机遇与风险（三）

哈工大SCIR

12+阅读 · 2021年10月26日

NLP新宠 | 浅谈Prompt的前世今生

NLP新宠 | 浅谈Prompt的前世今生

机器学习与推荐算法

14+阅读 · 2021年8月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Jacob Eisenstein《自然语言处理》最新经典教材免费分享

Jacob Eisenstein《自然语言处理》最新经典教材免费分享

深度学习与NLP

24+阅读 · 2019年2月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

相关论文

The Energy Consumption of Transformer Fine-Tuning: A Roofline-Inspired Scaling Model

Arxiv

0+阅读 · 6月22日

Prime Fourier Embeddings: A Principled Basis for Modular Arithmetic

Arxiv

0+阅读 · 6月22日

On the Asymptotic Inadmissibility of Double Machine Learning Estimators Under Structure-Agnostic Models

Arxiv

0+阅读 · 6月21日

Brain-Inspired Stochastic Joint Embedding Representation Learning

Arxiv

0+阅读 · 6月19日

MBRarefy: data-adaptive multi-bin rarefying for alpha diversity association analysis

Arxiv

0+阅读 · 6月19日

KEPLA: A Knowledge-Enhanced Deep Learning Framework for Accurate Protein-Ligand Binding Affinity Prediction

Arxiv

0+阅读 · 6月17日

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

Arxiv

0+阅读 · 6月17日

SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding

Arxiv

0+阅读 · 6月17日

Contextualizing Biological Language Models across Modalities via Logit-Space Contrastive Alignment

Arxiv

0+阅读 · 6月17日

STRIDE: Post-Training LLMs to Reason and Refine Bio-Sequences via Edit Trajectories

Arxiv

0+阅读 · 6月16日

相关基金

CRISPR/Cas9介导的基因组进化构建固态发酵耐热酵母及机理研究

国家自然科学基金

0+阅读 · 2016年12月31日

肥胖相关Hepatokine LECT2在肝脏中的调控及机制

国家自然科学基金

1+阅读 · 2015年12月31日

表征天然丰度酵母细胞色素c多构象的液体14N NMR方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

9.6nm高密度脂蛋白结构与功能的透射电子显微镜与分子动力学模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

与RNA、DNA及蛋白质绑定的固有无序片段的分析及预测

国家自然科学基金

2+阅读 · 2015年12月31日

基因表达专题讲习班

国家自然科学基金

2+阅读 · 2015年4月30日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

鸡功能候选基因拷贝数变异、单核苷酸多态等对鸡重要经济性状的综合影响及其分子调控机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员