Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT - 专知论文

会员服务 ·

0

大型语言模型 · 语言模型 · 数据集 · 器件性能 · 钙钛矿太阳能电池 ·

2023 年 4 月 12 日

Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT

翻译：大型语言模型作为万能钥匙：用GPT解锁材料科学奥秘

Tong Xie,Yuwei Wan,Wei Huang,Yufei Zhou,Yixuan Liu,Qingyuan Linghu,Shaozhou Wang,Chunyu Kit,Clara Grazian,Wenjie Zhang,Bram Hoex

The amount of data has growing significance in exploring cutting-edge materials and a number of datasets have been generated either by hand or automated approaches. However, the materials science field struggles to effectively utilize the abundance of data, especially in applied disciplines where materials are evaluated based on device performance rather than their properties. This article presents a new natural language processing (NLP) task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existing perovskite solar cell FAIR (Findable, Accessible, Interoperable, Reusable) dataset with 91.8% F1-score and extended the dataset with data published since its release. The produced data is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature empowers materials scientists to develop models by selecting high-quality review articles within their domain. Additionally, we designed experiments to predict the electrical performance of solar cells and design materials or devices with targeted parameters using large language models (LLMs). Our results demonstrate comparable performance to traditional machine learning methods without feature selection, highlighting the potential of LLMs to acquire scientific knowledge and design new materials akin to materials scientists.

翻译：数据在探索前沿材料中的重要性日益凸显，目前已通过人工或自动化方式生成了大量数据集。然而，材料科学领域在有效利用这些海量数据方面仍面临挑战，尤其是在以器件性能而非材料特性为评估标准的应用学科中。本文提出一种名为结构化信息推理（SII）的新型自然语言处理任务，以解决材料科学中器件层面的信息提取复杂性。我们通过调整GPT-3模型，在现有钙钛矿太阳能电池FAIR（可发现、可访问、互操作、可重用）数据集上实现了91.8%的F1分数，并扩展了该数据集发布以来的新增数据。生成的数据经过格式化和标准化处理，可直接作为后续数据分析的输入。这一特性使材料科学家能够通过筛选所在领域的高质量综述文章来开发模型。此外，我们设计了实验来预测太阳能电池的电学性能，并利用大型语言模型设计具有目标参数的材料或器件。研究结果表明，在不进行特征选择的情况下，该方法与传统机器学习方法的性能相当，突显了大型语言模型像材料科学家一样获取科学知识并设计新型材料的潜力。

0

相关内容

大型语言模型

大型语言模型

大模型最权威课程！MIT最新《生成式AI-大模型》课程，MIT斯坦福OpenAI-DeepMind众多专家讲授

大模型最权威课程！MIT最新《生成式AI-大模型》课程，MIT斯坦福OpenAI-DeepMind众多专家讲授

专知会员服务

121+阅读 · 2023年5月26日

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

专知会员服务

104+阅读 · 2023年4月28日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知会员服务

256+阅读 · 2022年8月31日

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

专知会员服务

144+阅读 · 2022年4月8日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

2019年自然语言处理NLP亮点总结，29页pdf，NLP Year in Review — 2019 NLP highlights for the year 2019.

2019年自然语言处理NLP亮点总结，29页pdf，NLP Year in Review — 2019 NLP highlights for the year 2019.

专知会员服务

69+阅读 · 2020年1月2日

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

专知会员服务

25+阅读 · 2019年11月15日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知

19+阅读 · 2022年8月31日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附185页ppt

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附185页ppt

专知

1+阅读 · 2022年5月24日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

高性能多孔TiO2基介观晶体钠离子电池负极材料的研究

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向非对称超级电容器的石墨烯插层钴基双金属氢氧化物复合电极材料的设计及合成

国家自然科学基金

0+阅读 · 2013年12月31日

贵金属—钙钛矿催化剂材料中的金属扩散和催化活性

国家自然科学基金

0+阅读 · 2013年12月31日

Schrodinger-Poisson方程的若干问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

某些分形集上的调和分析

国家自然科学基金

0+阅读 · 2012年12月31日

植入金属基团调控MOF磁性和催化性能的计算与实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

储能用纳米碳材料的功能调控及机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

超声-TIG电弧复合焊的电弧物理机制及金属熔化行为研究

国家自然科学基金

0+阅读 · 2009年12月31日

金属卟啉修饰二氧化钛光催化剂的研制及光催化性能研究

国家自然科学基金

0+阅读 · 2009年12月31日

Prompting Is Programming: A Query Language for Large Language Models

Arxiv

0+阅读 · 2023年5月30日

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Arxiv

1+阅读 · 2023年5月29日

Do Large Language Models Know What They Don't Know?

Arxiv

0+阅读 · 2023年5月29日

Writing user personas with Large Language Models: Testing phase 6 of a Thematic Analysis of semi-structured interviews

Arxiv

0+阅读 · 2023年5月29日

Assess and Summarize: Improve Outage Understanding with Large Language Models

Arxiv

0+阅读 · 2023年5月29日

Parsel: Algorithmic Reasoning with Language Models by Composing Decompositions

Arxiv

0+阅读 · 2023年5月28日

Reading Between the Lines: Modeling User Behavior and Costs in AI-Assisted Programming

Arxiv

0+阅读 · 2023年5月26日

MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting

Arxiv

0+阅读 · 2023年5月26日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Arxiv

21+阅读 · 2019年3月27日

VIP会员

文章信息

相关主题

大型语言模型

钙钛矿太阳能电池

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

大模型最权威课程！MIT最新《生成式AI-大模型》课程，MIT斯坦福OpenAI-DeepMind众多专家讲授

大模型最权威课程！MIT最新《生成式AI-大模型》课程，MIT斯坦福OpenAI-DeepMind众多专家讲授

专知会员服务

121+阅读 · 2023年5月26日

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

专知会员服务

104+阅读 · 2023年4月28日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知会员服务

256+阅读 · 2022年8月31日

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

专知会员服务

144+阅读 · 2022年4月8日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

2019年自然语言处理NLP亮点总结，29页pdf，NLP Year in Review — 2019 NLP highlights for the year 2019.

2019年自然语言处理NLP亮点总结，29页pdf，NLP Year in Review — 2019 NLP highlights for the year 2019.

专知会员服务

69+阅读 · 2020年1月2日

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

专知会员服务

25+阅读 · 2019年11月15日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

【2022新书】Python数据分析第三版，579页pdf

【2022新书】Python数据分析第三版，579页pdf

专知

19+阅读 · 2022年8月31日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附185页ppt

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附185页ppt

专知

1+阅读 · 2022年5月24日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

Prompting Is Programming: A Query Language for Large Language Models

Arxiv

0+阅读 · 2023年5月30日

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Arxiv

1+阅读 · 2023年5月29日

Do Large Language Models Know What They Don't Know?

Arxiv

0+阅读 · 2023年5月29日

Writing user personas with Large Language Models: Testing phase 6 of a Thematic Analysis of semi-structured interviews

Arxiv

0+阅读 · 2023年5月29日

Assess and Summarize: Improve Outage Understanding with Large Language Models

Arxiv

0+阅读 · 2023年5月29日

Parsel: Algorithmic Reasoning with Language Models by Composing Decompositions

Arxiv

0+阅读 · 2023年5月28日

Reading Between the Lines: Modeling User Behavior and Costs in AI-Assisted Programming

Arxiv

0+阅读 · 2023年5月26日

MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting

Arxiv

0+阅读 · 2023年5月26日

Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches

Arxiv

16+阅读 · 2019年4月2日

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Arxiv

21+阅读 · 2019年3月27日

相关基金

高性能多孔TiO2基介观晶体钠离子电池负极材料的研究

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向非对称超级电容器的石墨烯插层钴基双金属氢氧化物复合电极材料的设计及合成

国家自然科学基金

0+阅读 · 2013年12月31日

贵金属—钙钛矿催化剂材料中的金属扩散和催化活性

国家自然科学基金

0+阅读 · 2013年12月31日

Schrodinger-Poisson方程的若干问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

某些分形集上的调和分析

国家自然科学基金

0+阅读 · 2012年12月31日

植入金属基团调控MOF磁性和催化性能的计算与实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

储能用纳米碳材料的功能调控及机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

超声-TIG电弧复合焊的电弧物理机制及金属熔化行为研究

国家自然科学基金

0+阅读 · 2009年12月31日

金属卟啉修饰二氧化钛光催化剂的研制及光催化性能研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员