Biomolecular sequence models are increasingly reused outside the studies in which they were introduced, but public checkpoints rarely preserve the execution context needed to inspect source-defined behavior, adapt models to new assays, compare models under shared task definitions or deploy biological predictions. MultiMolecule is an open-source Python ecosystem that turns heterogeneous RNA, DNA and protein sequence-model releases into complete, source-checked model-family implementations with shared loading, workflow and prediction interfaces. The Resource state reported here includes 53 complete model-family implementations with 112 standardized model checkpoints, together with 16 curated dataset resources released through 39 public dataset repositories and 10 user-facing prediction pipelines. Standardized components are linked to source provenance, conversion or preparation code, source-reference checks, Extended Data summaries and public documentation, allowing users to inspect what was standardized, what behavior was checked and how each component enters training, evaluation, inference or deployment. By shifting reuse from repository-specific checkpoints to executable implementations connected to standardized checkpoints, curated datasets, Runner workflows and biological prediction pipelines, MultiMolecule provides common infrastructure for preserving source-defined model behavior, adapting models to new assays, enabling controlled evaluation and deploying biomolecular predictions.


翻译:生物分子序列模型正越来越多地被用于其原始研究之外,但公共检查点很少保留检查源代码定义行为、将模型适配到新实验、在共享任务定义下比较模型或部署生物学预测所需的执行上下文。MultiMolecule是一个开源Python生态系统,它将异质的RNA、DNA和蛋白质序列模型发布物转化为完整且经过源代码核验的模型族实现,并提供共享的加载、工作流和预测接口。本报告涉及的资源状态包括53个完整的模型族实现(包含112个标准化模型检查点),以及通过39个公共数据集仓库发布的16个精选数据集资源和10个面向用户的预测管道。标准化组件与源代码出处、转换或制备代码、源代码参考核验、扩展数据摘要和公共文档相关联,使用户能够检查哪些内容被标准化、哪些行为被核验,以及每个组件如何进入训练、评估、推理或部署流程。通过将复用从特定仓库的检查点转向与标准化检查点、精选数据集、Runner工作流和生物学预测管道相连的可执行实现,MultiMolecule为保留源代码定义的模型行为、将模型适配到新实验、实现受控评估以及部署生物分子预测提供了通用基础设施。

0
下载
关闭预览

相关内容

具有动能的生命体。
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
多模态模型架构的演变
专知会员服务
71+阅读 · 2024年5月29日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
专知会员服务
149+阅读 · 2020年9月6日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月19日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员