Large Language Models (LLMs) are increasingly utilized for large-scale extraction and organization of unstructured data owing to their exceptional Natural Language Processing (NLP) capabilities. Empowering materials design, vast amounts of data from experiments and simulations are scattered across numerous scientific publications, but high-quality experimental databases are scarce. This study considers the effectiveness and practicality of five representative AI tools (ChemDataExtractor, BERT-PSIE, ChatExtract, LangChain, and Kimi) to extract bandgaps from 200 randomly selected Materials Science publications in two presentations (arXiv and publisher versions), comparing the results to those obtained by human processing. Although the integrity of data extraction has not met expectations, encouraging results have been achieved in terms of precision and the ability to eliminate irrelevant papers from human consideration. Our analysis highlights both the strengths and limitations of these tools, offering insights into improving future data extraction techniques for enhanced scientific discovery and innovation. In conjunction with recent research, we provide guidance on feasible improvements for future data extraction methodologies, helping to bridge the gap between unstructured scientific data and structured, actionable databases.


翻译:大语言模型因其卓越的自然语言处理能力,正日益广泛地应用于大规模非结构化数据的提取与组织。为赋能材料设计,大量来自实验与模拟的数据分散于众多科学文献中,但高质量的实验数据库仍较为稀缺。本研究评估了五种代表性人工智能工具(ChemDataExtractor、BERT-PSIE、ChatExtract、LangChain和Kimi)在提取带隙数据方面的效能与实用性:从200篇随机选取的材料科学文献(arXiv与出版商版本两种呈现形式)中提取带隙数据,并将结果与人工处理结果进行对比。尽管数据提取的完整性尚未达到预期,但在精确度及排除无关文献以减轻人工负担方面取得了令人鼓舞的成果。我们的分析揭示了这些工具的优势与局限,为改进未来数据提取技术以促进科学发现与创新提供了见解。结合近期研究,我们为未来数据提取方法的可行改进提供了指导,有助于弥合非结构化科学数据与结构化、可操作数据库之间的鸿沟。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员