Molecular function is largely determined by structure. Accurately aligning molecular structure with natural language is therefore essential for enabling large language models (LLMs) to reason about downstream chemical tasks. However, the substantial cost of human annotation makes it infeasible to construct large-scale, high-quality datasets of structure-grounded descriptions. In this work, we propose a fully automated annotation framework for generating precise molecular structure descriptions at scale. Our approach builds upon and extends a rule-based chemical nomenclature parser to interpret IUPAC names and construct enriched, structured XML metadata that explicitly encodes molecular structure. This metadata is then used to guide LLMs in producing accurate natural-language descriptions. Using this framework, we curate a large-scale dataset of approximately $163$k molecule-description pairs. A rigorous validation protocol combining LLM-based and expert human evaluation on a subset of $2,000$ molecules demonstrates a high description precision of $98.6\%$. The resulting dataset provides a reliable foundation for future molecule-language alignment, and the proposed annotation method is readily extensible to larger datasets and broader chemical tasks that rely on structural descriptions.


翻译:分子功能主要由其结构决定。因此,准确地将分子结构与自然语言对齐,对于使大语言模型能够推理下游化学任务至关重要。然而,人工标注的高昂成本使得构建大规模、高质量的结构化描述数据集变得不可行。在本工作中,我们提出了一种全自动的标注框架,用于大规模生成精确的分子结构描述。我们的方法基于并扩展了一种基于规则的化学命名解析器,以解释IUPAC名称并构建丰富的、结构化的XML元数据,该元数据明确编码了分子结构。随后,利用该元数据引导大语言模型生成准确的自然语言描述。通过该框架,我们构建了一个包含约$163$k个分子-描述对的大规模数据集。在一个包含$2,000$个分子的子集上,结合基于大语言模型的评估和专家人工评估的严格验证方案表明,描述精度高达$98.6\%$。所得到的数据集为未来的分子-语言对齐研究提供了可靠的基础,并且所提出的标注方法易于扩展到更大的数据集以及依赖结构描述的更广泛的化学任务中。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
基于大语言模型的知识图谱逻辑规则挖掘框架及应用
专知会员服务
27+阅读 · 2025年5月22日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
【ICLR2024】3D-MoLM:增强语言模型对分子3D空间结构的理解
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
31+阅读 · 2024年2月8日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员