专家何以成专家？数据科学笔记本中问题解决实践的比较 (What makes an Expert? Comparing Problem-solving Practices in Data Science Notebooks) - 专知论文

会员服务 ·

0

数据科学 · 笔记本电脑 · 操作 · 序列 · 分析 ·

What makes an Expert? Comparing Problem-solving Practices in Data Science Notebooks

翻译：专家何以成专家？数据科学笔记本中问题解决实践的比较

Manuel Valle Torre,Marcus Specht,Catharine Oertel

The development of data science expertise requires tacit, process-oriented skills that are difficult to teach directly. This study addresses the resulting challenge of empirically understanding how the problem-solving processes of experts and novices differ. We apply a multi-level sequence analysis to 440 Jupyter notebooks from a public dataset, mapping low-level coding actions to higher-level problem-solving practices. Our findings reveal that experts do not follow fundamentally different transitions between data science phases than novices (e.g., Data Import, EDA, Model Training, Visualization). Instead, expertise is distinguished by the overall workflow structure from a problem-solving perspective and cell-level, fine-grained action patterns. Novices tend to follow long, linear processes, whereas experts employ shorter, more iterative strategies enacted through efficient, context-specific action sequences. These results provide data science educators with empirical insights for curriculum design and assessment, shifting the focus from final products toward the development of the flexible, iterative thinking that defines expertise-a priority in a field increasingly shaped by AI tools.

翻译：数据科学专业知识的培养需要难以直接传授的隐性、过程导向技能。本研究针对由此产生的实证理解专家与新手问题解决过程差异的挑战，对来自公共数据集的440个Jupyter笔记本进行多层次序列分析，将低层级编码操作映射到高层级问题解决实践。研究发现，在数据科学各阶段（如数据导入、探索性数据分析、模型训练、可视化）之间的转换模式上，专家并未采用与新手根本不同的方式。相反，专业能力的差异主要体现在从问题解决视角观察的整体工作流结构，以及单元格层级的细粒度操作模式。新手倾向于遵循冗长线性的过程，而专家则通过高效、情境特定的操作序列实施更简短、更具迭代性的策略。这些结果为数据科学教育者提供了课程设计与评估的实证依据，促使教学重点从最终产出转向培养定义专业能力的灵活迭代思维——这一优先事项在日益受AI工具影响的领域中尤为重要。

0

相关内容

数据科学

数据科学（英語：data science）是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

【新书】数据科学：初级介绍，443页pdf

【新书】数据科学：初级介绍，443页pdf

专知会员服务

91+阅读 · 2024年2月4日

【Maning新书】数据科学训练营，Data Science Bookcamp，706页pdf

【Maning新书】数据科学训练营，Data Science Bookcamp，706页pdf

专知会员服务

76+阅读 · 2021年11月19日

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

专知会员服务

59+阅读 · 2021年9月11日

【干货书】数据科学基础，429页pdf，Foundations of Data Science

专知会员服务

65+阅读 · 2021年8月11日

【Manning书籍】像数据科学家一样思考，331页pdf教您如何步步成为数据科学家

【Manning书籍】像数据科学家一样思考，331页pdf教您如何步步成为数据科学家

专知会员服务

49+阅读 · 2020年6月18日

【实用书】数据科学基础，484页pdf，Foundations of Data Science

【实用书】数据科学基础，484页pdf，Foundations of Data Science

专知会员服务

122+阅读 · 2020年5月28日

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

专知会员服务

74+阅读 · 2020年5月20日

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

专知会员服务

95+阅读 · 2020年3月14日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

【2022新书】高效数据科学基础: 如何使数据科学家高效，353页pdf

【2022新书】高效数据科学基础: 如何使数据科学家高效，353页pdf

专知

19+阅读 · 2022年7月17日

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

专知

22+阅读 · 2022年6月12日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【干货书】数据科学手册，456页pdf

【干货书】数据科学手册，456页pdf

专知

15+阅读 · 2021年4月28日

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

数据分析

15+阅读 · 2018年8月23日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

一位数据分析师的书单

一位数据分析师的书单

R语言中文社区

12+阅读 · 2017年10月28日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

41+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

Improving Data and Reward Design for Scientific Reasoning in Large Language Models

Arxiv

0+阅读 · 2月10日

Improving Data and Reward Design for Scientific Reasoning in Large Language Models

Arxiv

0+阅读 · 2月9日

Learned Query Optimizer in Alibaba MaxCompute: Challenges, Analysis, and Solutions

Arxiv

0+阅读 · 2月7日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月4日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月2日

A Qualitative Study of IT Students' Skill Development: Comparing Online and Face- to-Face Learning Environments

Arxiv

0+阅读 · 1月31日

On the Costs and Benefits of Learned Indexing for Dynamic High-Dimensional Data: Extended Version

Arxiv

0+阅读 · 1月20日

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Arxiv

0+阅读 · 1月19日

Data Fusion: Theory, Methods, and Applications

Arxiv

95+阅读 · 2022年8月2日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

VIP会员

文章信息

相关主题

笔记本电脑

相关VIP内容

【新书】数据科学：初级介绍，443页pdf

【新书】数据科学：初级介绍，443页pdf

专知会员服务

91+阅读 · 2024年2月4日

【Maning新书】数据科学训练营，Data Science Bookcamp，706页pdf

【Maning新书】数据科学训练营，Data Science Bookcamp，706页pdf

专知会员服务

76+阅读 · 2021年11月19日

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

专知会员服务

59+阅读 · 2021年9月11日

【干货书】数据科学基础，429页pdf，Foundations of Data Science

专知会员服务

65+阅读 · 2021年8月11日

【Manning书籍】像数据科学家一样思考，331页pdf教您如何步步成为数据科学家

【Manning书籍】像数据科学家一样思考，331页pdf教您如何步步成为数据科学家

专知会员服务

49+阅读 · 2020年6月18日

【实用书】数据科学基础，484页pdf，Foundations of Data Science

【实用书】数据科学基础，484页pdf，Foundations of Data Science

专知会员服务

122+阅读 · 2020年5月28日

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

专知会员服务

74+阅读 · 2020年5月20日

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

专知会员服务

95+阅读 · 2020年3月14日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

【2022新书】高效数据科学基础: 如何使数据科学家高效，353页pdf

【2022新书】高效数据科学基础: 如何使数据科学家高效，353页pdf

专知

19+阅读 · 2022年7月17日

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

【2022新书】数据科学基础数学，517页pdf带你用基本线性代数，概率和统计来掌握你的数据

专知

22+阅读 · 2022年6月12日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【干货书】数据科学手册，456页pdf

【干货书】数据科学手册，456页pdf

专知

15+阅读 · 2021年4月28日

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

数据分析

15+阅读 · 2018年8月23日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

一位数据分析师的书单

一位数据分析师的书单

R语言中文社区

12+阅读 · 2017年10月28日

相关论文

Improving Data and Reward Design for Scientific Reasoning in Large Language Models

Arxiv

0+阅读 · 2月10日

Improving Data and Reward Design for Scientific Reasoning in Large Language Models

Arxiv

0+阅读 · 2月9日

Learned Query Optimizer in Alibaba MaxCompute: Challenges, Analysis, and Solutions

Arxiv

0+阅读 · 2月7日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月4日

Exploring Collaborative Immersive Visualization & Analytics for High-Dimensional Scientific Data through Domain Expert Perspectives

Arxiv

0+阅读 · 2月2日

A Qualitative Study of IT Students' Skill Development: Comparing Online and Face- to-Face Learning Environments

Arxiv

0+阅读 · 1月31日

On the Costs and Benefits of Learned Indexing for Dynamic High-Dimensional Data: Extended Version

Arxiv

0+阅读 · 1月20日

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Arxiv

0+阅读 · 1月19日

Data Fusion: Theory, Methods, and Applications

Arxiv

95+阅读 · 2022年8月2日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

41+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员