Molecular representations are inherently task-dependent, yet most pre-trained molecular encoders are not. Task conditioning promises representations that reorganize based on task descriptions, but existing approaches rely on expensive labeled data. We show that weak supervision on programmatically derived molecular motifs is sufficient. Our Adaptive Chemical Embedding Model (ACE-Mol) learns from hundreds of motifs paired with natural language descriptors that are cheap to compute, trivial to scale. Conventional encoders slowly search the embedding space for task-relevant structure, whereas ACE-Mol immediately aligns its representations with the task. ACE-Mol achieves state-of-the-art performance across molecular property prediction benchmarks with interpretable, chemically meaningful representations.


翻译:分子表示本质上是任务依赖的,然而大多数预训练的分子编码器并非如此。任务条件化有望根据任务描述重组表示,但现有方法依赖于昂贵的标注数据。我们证明,对程序化推导的分子基序进行弱监督已足够有效。我们的自适应化学嵌入模型(ACE-Mol)从数百个与自然语言描述符配对的基序中学习,这些描述符计算成本低廉,且易于扩展。传统编码器在嵌入空间中缓慢搜索与任务相关的结构,而ACE-Mol能立即将其表示与任务对齐。ACE-Mol在分子性质预测基准测试中实现了最先进的性能,并具有可解释且化学意义明确的表示。

0
下载
关闭预览

相关内容

【MIT博士论文】弱监督学习:理论、方法与应用
专知会员服务
33+阅读 · 2025年12月21日
专知会员服务
113+阅读 · 2020年3月20日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
南京大学周志华教授综述论文:弱监督学习
机器之心
11+阅读 · 2018年3月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【MIT博士论文】弱监督学习:理论、方法与应用
专知会员服务
33+阅读 · 2025年12月21日
专知会员服务
113+阅读 · 2020年3月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员