The development of data science expertise requires tacit, process-oriented skills that are difficult to teach directly. This study addresses the resulting challenge of empirically understanding how the problem-solving processes of experts and novices differ. We apply a multi-level sequence analysis to 440 Jupyter notebooks from a public dataset, mapping low-level coding actions to higher-level problem-solving practices. Our findings reveal that experts do not follow fundamentally different transitions between data science phases than novices (e.g., Data Import, EDA, Model Training, Visualization). Instead, expertise is distinguished by the overall workflow structure from a problem-solving perspective and cell-level, fine-grained action patterns. Novices tend to follow long, linear processes, whereas experts employ shorter, more iterative strategies enacted through efficient, context-specific action sequences. These results provide data science educators with empirical insights for curriculum design and assessment, shifting the focus from final products toward the development of the flexible, iterative thinking that defines expertise-a priority in a field increasingly shaped by AI tools.


翻译:数据科学专业知识的培养需要难以直接传授的隐性、过程导向技能。本研究针对由此产生的实证理解专家与新手问题解决过程差异的挑战,对来自公共数据集的440个Jupyter笔记本进行多层次序列分析,将低层级编码操作映射到高层级问题解决实践。研究发现,在数据科学各阶段(如数据导入、探索性数据分析、模型训练、可视化)之间的转换模式上,专家并未采用与新手根本不同的方式。相反,专业能力的差异主要体现在从问题解决视角观察的整体工作流结构,以及单元格层级的细粒度操作模式。新手倾向于遵循冗长线性的过程,而专家则通过高效、情境特定的操作序列实施更简短、更具迭代性的策略。这些结果为数据科学教育者提供了课程设计与评估的实证依据,促使教学重点从最终产出转向培养定义专业能力的灵活迭代思维——这一优先事项在日益受AI工具影响的领域中尤为重要。

0
下载
关闭预览

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【新书】数据科学:初级介绍,443页pdf
专知会员服务
91+阅读 · 2024年2月4日
【Maning新书】数据科学训练营,Data Science Bookcamp,706页pdf
专知会员服务
76+阅读 · 2021年11月19日
数据科学导论,722页pdf,讲述带R的数据分析与预测算法
专知会员服务
59+阅读 · 2021年9月11日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
122+阅读 · 2020年5月28日
【干货书】数据科学手册,456页pdf
专知
15+阅读 · 2021年4月28日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
一位数据分析师的书单
R语言中文社区
12+阅读 · 2017年10月28日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
95+阅读 · 2022年8月2日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员