Prediction of crystal system from X-ray diffraction (XRD) spectra is a critical task in materials science, particularly for perovskite materials which are known for their diverse applications in photovoltaics, optoelectronics, and catalysis. In this study, we present a machine learning (ML)-driven framework that leverages advanced models, including Time Series Forest (TSF), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), and a simple feedforward neural network (NN), to classify crystal systems, point groups, and space groups from XRD data of perovskite materials. To address class imbalance and enhance model robustness, we integrated feature augmentation strategies such as Synthetic Minority Over-sampling Technique (SMOTE), class weighting, jittering, and spectrum shifting, along with efficient data preprocessing pipelines. The TSF model with SMOTE augmentation achieved strong performance for crystal system prediction, with a Matthews correlation coefficient (MCC) of 0.9, an F1 score of 0.92, and an accuracy of 97.76%. For point and space group prediction, balanced accuracies above 95% were obtained. The model demonstrated high performance for symmetry-distinct classes, including cubic crystal systems, point groups 3m and m-3m, and space groups Pnma and Pnnn. This work highlights the potential of ML for XRD-based structural characterization and accelerated discovery of perovskite materials


翻译:从X射线衍射(XRD)谱预测晶体系统是材料科学中的关键任务,尤其对于在光伏、光电子和催化领域具有广泛应用前景的钙钛矿材料。本研究提出一种机器学习驱动的框架,该框架利用包括时间序列森林(TSF)、随机森林(RF)、极限梯度提升(XGBoost)、循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)以及简单前馈神经网络(NN)在内的先进模型,对钙钛矿材料XRD数据进行晶体系统、点群和空间群的分类。为解决类别不平衡问题并提升模型鲁棒性,我们整合了特征增强策略,如合成少数类过采样技术(SMOTE)、类别加权、抖动增强和谱线平移,并构建了高效的数据预处理流程。采用SMOTE增强的TSF模型在晶体系统预测中表现出色,其马修斯相关系数(MCC)达0.9,F1分数为0.92,准确率达到97.76%。在点群与空间群预测中,平衡准确率均超过95%。该模型在对称性差异显著的类别中展现出优异性能,包括立方晶系、点群3m与m-3m,以及空间群Pnma和Pnnn。本工作凸显了机器学习在基于XRD的结构表征与加速钙钛矿材料发现方面的潜力。

0
下载
关闭预览

相关内容

《深度学习在时间序列预测中的应用:综述》
专知会员服务
28+阅读 · 2025年3月14日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
【Cell】可扩展深度图神经网络的高性能材料性能预测
专知会员服务
18+阅读 · 2022年5月4日
用机器学习来预测股价(代码+文档)——2018年iNTUtion决赛大作!
量化投资与机器学习
25+阅读 · 2018年11月20日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《深度学习在时间序列预测中的应用:综述》
专知会员服务
28+阅读 · 2025年3月14日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
【Cell】可扩展深度图神经网络的高性能材料性能预测
专知会员服务
18+阅读 · 2022年5月4日
Top
微信扫码咨询专知VIP会员