Every molecule ever synthesised can be drawn as a 2D skeletal diagram, yet in modern property prediction this universally available representation has received less focus in favour of molecular graphs, 3D conformers, or billion-parameter language models, each imposing its own computational and data-engineering overhead. We present $\textbf{MolSight}$, the first systematic large-scale study of vision-based Molecular Property Prediction (MPP). Using 10 vision architectures, 7 pre-training strategies, and $2\,M$ molecule images, we evaluate performance across 10 downstream tasks spanning physical-property regression, drug-discovery classification, and quantum-chemistry prediction. To account for the wide variation in structural complexity across pre-training molecules, we further propose a $\textbf{chemistry-informed curriculum}$: five structural complexity descriptors partition the corpus into five tiers of increasing chemical difficulty, consistently outperforming non-curriculum baselines. We show that a single rendered bond-line image, processed by a vision encoder, is sufficient for competitive molecular property prediction, i.e. $\textit{chemical insight from sight alone}$. The best curriculum-trained configuration achieves the top result on $\textbf{5 of 10}$ benchmarks and top two on $\textbf{all 10}$, at $\textbf{$\textit{80$\times$ lower}$}$ FLOPs than the nearest multi-modal competitor.


翻译:所有被合成的分子都可以绘制成二维骨架图,然而在现代性质预测中,这种普遍可用的表示形式却较少受到关注,取而代之的是分子图、三维构象或拥有数十亿参数的语言模型——每一种方法都带来了额外的计算与数据工程负担。我们提出\textbf{MolSight},这是首个基于视觉的分子性质预测(MPP)系统化大规模研究。通过使用10种视觉架构、7种预训练策略以及2M张分子图像,我们在涵盖物理性质回归、药物发现分类和量子化学预测的10个下游任务中评估了性能。考虑到预训练分子在结构复杂度上的广泛差异,我们进一步提出了一种\textbf{基于化学知识的课程学习策略}:通过五个结构复杂度描述符将语料库划分为五个难度递增的化学层级,该方法始终优于非课程基准方法。研究表明,单个经图像编码器处理的渲染键线图足以实现具有竞争力的分子性质预测,即仅凭视觉即可获得化学洞察。最佳课程训练配置在10个基准测试中的5个上取得了最优结果,并在全部10个测试中位列前两名,其FLOPs仅为最接近的多模态竞争者的80倍。

0
下载
关闭预览

相关内容

ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
12+阅读 · 2022年8月14日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
22+阅读 · 2021年12月4日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
15+阅读 · 2021年5月30日
【WWW2021】少样本图学习分子性质预测
专知会员服务
36+阅读 · 2021年2月20日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 32分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
1+阅读 · 49分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员