From Human Labels to Literature: Semi-Supervised Learning of NMR Chemical Shifts at Scale - 专知论文

会员服务 ·

0

监督 · 标注 · 半监督 · 磁共振 · 数据集 ·

From Human Labels to Literature: Semi-Supervised Learning of NMR Chemical Shifts at Scale

翻译：从人工标注到文献：大规模核磁共振化学位移的半监督学习

Yongqi Jin,Yecheng Wang,Jun-jie Wang,Rong Zhu,Guolin Ke,Weinan E

Accurate prediction of nuclear magnetic resonance (NMR) chemical shifts is fundamental to spectral analysis and molecular structure elucidation, yet existing machine learning methods rely on limited, labor-intensive atom-assigned datasets. We propose a semi-supervised framework that learns NMR chemical shifts from millions of literature-extracted spectra without explicit atom-level assignments, integrating a small amount of labeled data with large-scale unassigned spectra. We formulate chemical shift prediction from literature spectra as a permutation-invariant set supervision problem, and show that under commonly satisfied conditions on the loss function, optimal bipartite matching reduces to a sorting-based loss, enabling stable large-scale semi-supervised training beyond traditional curated datasets. Our models achieve substantially improved accuracy and robustness over state-of-the-art methods and exhibit stronger generalization on significantly larger and more diverse molecular datasets. Moreover, by incorporating solvent information at scale, our approach captures systematic solvent effects across common NMR solvents for the first time. Overall, our results demonstrate that large-scale unlabeled spectra mined from the literature can serve as a practical and effective data source for training NMR shift models, suggesting a broader role of literature-derived, weakly structured data in data-centric AI for science.

翻译：核磁共振（NMR）化学位移的准确预测是谱图分析和分子结构解析的基础，然而现有的机器学习方法依赖于有限且劳动密集的原子归属数据集。我们提出了一种半监督框架，该框架可从数百万文献提取的谱图中学习NMR化学位移，而无需明确的原子级归属，其将少量标注数据与大规模未归属谱图相结合。我们将从文献谱图预测化学位移表述为一个置换不变集合监督问题，并证明在损失函数满足常见条件时，最优二分匹配可简化为基于排序的损失函数，从而能够实现超越传统精编数据集的大规模稳定半监督训练。我们的模型相比现有最先进方法实现了显著提升的准确性与鲁棒性，并在更大规模、更多样化的分子数据集上表现出更强的泛化能力。此外，通过大规模整合溶剂信息，我们的方法首次捕捉了常见NMR溶剂中的系统性溶剂效应。总体而言，我们的结果表明，从文献中挖掘的大规模未标注谱图可作为训练NMR位移模型的实用且有效的数据源，这提示了文献衍生的弱结构化数据在以数据为中心的科学人工智能中具有更广泛的作用。

0

相关内容

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

19+阅读 · 2022年10月28日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

专知会员服务

39+阅读 · 2022年2月17日

【Manning新书】迁移学习自然语言处理，266页pdf，Transfer Learning for NLP

【Manning新书】迁移学习自然语言处理，266页pdf，Transfer Learning for NLP

专知会员服务

137+阅读 · 2021年11月6日

深度医学图像配准研究进展：迈向无监督学习

专知会员服务

31+阅读 · 2021年9月23日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

专知会员服务

46+阅读 · 2020年7月29日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

基于深度学习的医学图像半监督分割

基于深度学习的医学图像半监督分割

CVer

14+阅读 · 2020年9月24日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【上海交大】半监督学习理论及其研究进展概述

【上海交大】半监督学习理论及其研究进展概述

专知

43+阅读 · 2019年6月2日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

半监督学习加速AI产业数据标注

半监督学习加速AI产业数据标注

QCon

13+阅读 · 2019年4月2日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

表征天然丰度酵母细胞色素c多构象的液体14N NMR方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于张量稀疏L1图的半监督极化SAR影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Semi-Supervised Learning on Graphs using Graph Neural Networks

Arxiv

0+阅读 · 2月19日

A New Perspective on Scale: A Novel Transform for NMR Envelope Extraction

Arxiv

0+阅读 · 2月18日

Semi-Supervised Cross-Domain Imitation Learning

Arxiv

0+阅读 · 2月11日

Addressing data annotation scarcity in Brain Tumor Segmentation on 3D MRI scan Using a Semi-Supervised Teacher-Student Framework

Arxiv

0+阅读 · 2月9日

Graph-based Semi-Supervised Learning via Maximum Discrimination

Arxiv

0+阅读 · 2月8日

Reversible Deep Learning for 13C NMR in Chemoinformatics: On Structures and Spectra

Arxiv

0+阅读 · 2月5日

Transfer Learning Through Conditional Quantile Matching

Arxiv

0+阅读 · 2月2日

Neural Network Machine Regression (NNMR): A Deep Learning Framework for Uncovering High-order Synergistic Effects

Arxiv

0+阅读 · 2月2日

Federated Transformer-GNN for Privacy-Preserving Brain Tumor Localization with Modality-Level Explainability

Arxiv

0+阅读 · 1月21日

LAMDA: Aiding Visual Exploration of Atomic Displacements in Molecular Dynamics Simulations

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

19+阅读 · 2022年10月28日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

专知会员服务

39+阅读 · 2022年2月17日

【Manning新书】迁移学习自然语言处理，266页pdf，Transfer Learning for NLP

【Manning新书】迁移学习自然语言处理，266页pdf，Transfer Learning for NLP

专知会员服务

137+阅读 · 2021年11月6日

深度医学图像配准研究进展：迈向无监督学习

专知会员服务

31+阅读 · 2021年9月23日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

专知会员服务

46+阅读 · 2020年7月29日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

基于深度学习的医学图像半监督分割

基于深度学习的医学图像半监督分割

CVer

14+阅读 · 2020年9月24日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【上海交大】半监督学习理论及其研究进展概述

【上海交大】半监督学习理论及其研究进展概述

专知

43+阅读 · 2019年6月2日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

半监督学习加速AI产业数据标注

半监督学习加速AI产业数据标注

QCon

13+阅读 · 2019年4月2日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

相关论文

Semi-Supervised Learning on Graphs using Graph Neural Networks

Arxiv

0+阅读 · 2月19日

A New Perspective on Scale: A Novel Transform for NMR Envelope Extraction

Arxiv

0+阅读 · 2月18日

Semi-Supervised Cross-Domain Imitation Learning

Arxiv

0+阅读 · 2月11日

Addressing data annotation scarcity in Brain Tumor Segmentation on 3D MRI scan Using a Semi-Supervised Teacher-Student Framework

Arxiv

0+阅读 · 2月9日

Graph-based Semi-Supervised Learning via Maximum Discrimination

Arxiv

0+阅读 · 2月8日

Reversible Deep Learning for 13C NMR in Chemoinformatics: On Structures and Spectra

Arxiv

0+阅读 · 2月5日

Transfer Learning Through Conditional Quantile Matching

Arxiv

0+阅读 · 2月2日

Neural Network Machine Regression (NNMR): A Deep Learning Framework for Uncovering High-order Synergistic Effects

Arxiv

0+阅读 · 2月2日

Federated Transformer-GNN for Privacy-Preserving Brain Tumor Localization with Modality-Level Explainability

Arxiv

0+阅读 · 1月21日

LAMDA: Aiding Visual Exploration of Atomic Displacements in Molecular Dynamics Simulations

Arxiv

0+阅读 · 1月14日

相关基金

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

表征天然丰度酵母细胞色素c多构象的液体14N NMR方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于张量稀疏L1图的半监督极化SAR影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员