Empirical assessment of ChatGPT's answering capabilities in natural science and engineering - 专知论文

会员服务 ·

0

ChatGPT · Engineering · Nature · 语言模型化 · MoDELS ·

Empirical assessment of ChatGPT's answering capabilities in natural science and engineering

翻译：ChatGPT在自然科学与工程领域问答能力的实证评估

Lukas Schulze Balhorn,Jana M. Weber,Stefan Buijsman,Julian R. Hildebrandt,Martina Ziefle,Artur M. Schweidtmann

ChatGPT is a powerful language model from OpenAI that is arguably able to comprehend and generate text. ChatGPT is expected to greatly impact society, research, and education. An essential step to understand ChatGPT's expected impact is to study its domain-specific answering capabilities. Here, we perform a systematic empirical assessment of its abilities to answer questions across the natural science and engineering domains. We collected 594 questions on natural science and engineering topics from 198 faculty members across five faculties at Delft University of Technology. After collecting the answers from ChatGPT, the participants assessed the quality of the answers using a systematic scheme. Our results show that the answers from ChatGPT are, on average, perceived as ''mostly correct''. Two major trends are that the rating of the ChatGPT answers significantly decreases (i) as the educational level of the question increases and (ii) as we evaluate skills beyond scientific knowledge, e.g., critical attitude.

翻译：ChatGPT是OpenAI开发的一种强大语言模型，据称能够理解和生成文本。该模型预计将对社会、研究和教育产生重大影响。理解ChatGPT预期影响的关键步骤在于研究其在具体领域的问答能力。本文对ChatGPT在自然科学与工程领域的问答能力进行了系统性实证评估。我们收集了来自代尔夫特理工大学五个学院的198名教师提出的594个自然科学与工程领域问题。在获取ChatGPT的回答后，参与者采用系统化评价方案对回答质量进行评估。结果表明，ChatGPT的回答平均被认定为"基本正确"。两个主要趋势为：(i) 随着问题教育水平的提高，ChatGPT回答的评分显著下降；(ii) 当评估超越科学知识的能力（如批判性思维）时，其评分同样显著下降。

0

相关内容

ChatGPT

ChatGPT（全名：Chat Generative Pre-trained Transformer），美国OpenAI 研发的聊天机器人程序 [1] ，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文任务。 [1] https://openai.com/blog/chatgpt/

ChatGPT在军事中的潜在角色：根据ChatGPT的观点

ChatGPT在军事中的潜在角色：根据ChatGPT的观点

专知会员服务

36+阅读 · 2025年1月1日

【2023新书】探讨ChatGPT的功能:应用程序、技术和影响，206页pdf

【2023新书】探讨ChatGPT的功能:应用程序、技术和影响，206页pdf

专知会员服务

108+阅读 · 2023年8月20日

ChatGPT在网络安全领域的应用、现状与趋势

ChatGPT在网络安全领域的应用、现状与趋势

专知会员服务

73+阅读 · 2023年7月16日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

专知会员服务

167+阅读 · 2023年4月17日

要全面了解ChatGPT技术近况？韩国庆熙大学等最新《ChatGPT在AIGC时代》全面综述，29页pdf详述其技术原理与应用等

要全面了解ChatGPT技术近况？韩国庆熙大学等最新《ChatGPT在AIGC时代》全面综述，29页pdf详述其技术原理与应用等

专知会员服务

117+阅读 · 2023年4月15日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知会员服务

195+阅读 · 2023年4月12日

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

专知会员服务

981+阅读 · 2023年3月12日

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

专知会员服务

226+阅读 · 2023年2月5日

刷爆的ChatGPT什么算法这么强！台大李宏毅老师国语讲解《ChatGPT (可能)是怎么炼成的》！

刷爆的ChatGPT什么算法这么强！台大李宏毅老师国语讲解《ChatGPT (可能)是怎么炼成的》！

专知会员服务

145+阅读 · 2022年12月9日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Reimagining Assessment in the Age of Generative AI: Lessons from Open-Book Exams with ChatGPT

Arxiv

0+阅读 · 5月12日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月12日

AI-assisted writing and the reorganization of scientific knowledge

Arxiv

0+阅读 · 4月15日

Large Language Models Meet NLP: A Survey

Arxiv

14+阅读 · 2024年5月21日

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions

Arxiv

54+阅读 · 2023年5月25日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

VIP会员

文章信息

相关主题

语言模型化

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

ChatGPT在军事中的潜在角色：根据ChatGPT的观点

ChatGPT在军事中的潜在角色：根据ChatGPT的观点

专知会员服务

36+阅读 · 2025年1月1日

【2023新书】探讨ChatGPT的功能:应用程序、技术和影响，206页pdf

【2023新书】探讨ChatGPT的功能:应用程序、技术和影响，206页pdf

专知会员服务

108+阅读 · 2023年8月20日

ChatGPT在网络安全领域的应用、现状与趋势

ChatGPT在网络安全领域的应用、现状与趋势

专知会员服务

73+阅读 · 2023年7月16日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

专知会员服务

167+阅读 · 2023年4月17日

要全面了解ChatGPT技术近况？韩国庆熙大学等最新《ChatGPT在AIGC时代》全面综述，29页pdf详述其技术原理与应用等

要全面了解ChatGPT技术近况？韩国庆熙大学等最新《ChatGPT在AIGC时代》全面综述，29页pdf详述其技术原理与应用等

专知会员服务

117+阅读 · 2023年4月15日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知会员服务

195+阅读 · 2023年4月12日

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

专知会员服务

981+阅读 · 2023年3月12日

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

专知会员服务

226+阅读 · 2023年2月5日

刷爆的ChatGPT什么算法这么强！台大李宏毅老师国语讲解《ChatGPT (可能)是怎么炼成的》！

刷爆的ChatGPT什么算法这么强！台大李宏毅老师国语讲解《ChatGPT (可能)是怎么炼成的》！

专知会员服务

145+阅读 · 2022年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

相关论文

Reimagining Assessment in the Age of Generative AI: Lessons from Open-Book Exams with ChatGPT

Arxiv

0+阅读 · 5月12日

Useful for Exploration, Risky for Precision: Evaluating AI Tools in Academic Research

Arxiv

0+阅读 · 5月12日

AI-assisted writing and the reorganization of scientific knowledge

Arxiv

0+阅读 · 4月15日

Large Language Models Meet NLP: A Survey

Arxiv

14+阅读 · 2024年5月21日

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions

Arxiv

54+阅读 · 2023年5月25日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

相关基金

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员