We present SynRXN, a unified benchmarking framework and open-data resource for computer-aided synthesis planning (CASP). SynRXN decomposes end-to-end synthesis planning into five task families, covering reaction rebalancing, atom-to-atom mapping, reaction classification, reaction property prediction, and synthesis route design. Curated, provenance-tracked reaction corpora are assembled from heterogeneous public sources into a harmonized representation and packaged as versioned datasets for each task family, with explicit source metadata, licence tags, and machine-readable manifests that record checksums, and row counts. For every task, SynRXN provides transparent splitting functions that generate leakage-aware train, validation, and test partitions, together with standardized evaluation workflows and metric suites tailored to classification, regression, and structured prediction settings. For sensitive benchmarking, we combine public training and validation data with held-out gold-standard test sets, and contamination-prone tasks such as reaction rebalancing and atom-to-atom mapping are distributed only as evaluation sets and are explicitly not intended for model training. Scripted build recipes enable bitwise-reproducible regeneration of all corpora across machines and over time, and the entire resource is released under permissive open licences to support reuse and extension. By removing dataset heterogeneity and packaging transparent, reusable evaluation scaffolding, SynRXN enables fair longitudinal comparison of CASP methods, supports rigorous ablations and stress tests along the full reaction-informatics pipeline, and lowers the barrier for practitioners who seek robust and comparable performance estimates for real-world synthesis planning workloads.


翻译:我们提出了SynRXN,一个用于计算机辅助合成规划的统一基准框架与开放数据资源。SynRXN将端到端合成规划分解为五个任务族,涵盖反应配平、原子到原子映射、反应分类、反应性质预测以及合成路线设计。我们从异构的公共来源中精选出具有溯源追踪的反应语料库,将其整合为统一表示形式,并打包为每个任务族的版本化数据集,其中包含明确的数据源元数据、许可标签以及记录校验和与行数的机器可读清单。针对每个任务,SynRXN提供透明的分割函数,用于生成考虑数据泄漏的训练集、验证集和测试集划分,同时提供针对分类、回归和结构化预测场景定制的标准化评估流程与指标套件。为进行严谨的基准测试,我们将公开的训练和验证数据与保留的黄金标准测试集相结合;对于易受污染的任务(如反应配平与原子到原子映射),仅提供评估集,并明确不应用于模型训练。脚本化的构建方案支持在不同机器上及跨时间实现比特级可复现的语料库全量再生。整个资源在宽松的开放许可下发布,以支持重用与扩展。通过消除数据集异质性并提供透明、可复用的评估框架,SynRXN实现了对计算机辅助合成规划方法的公平纵向比较,支持沿完整反应信息学流程进行严格的消融研究与压力测试,并为寻求在实际合成规划任务中获得稳健且可比性能评估的实践者降低了门槛。

0
下载
关闭预览

相关内容

COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
43+阅读 · 2020年7月2日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员