Pandas for Reproducible Data Analysis: From Spreadsheets to Research-Grade Python Workflows - 专知论文

会员服务 ·

0

分析 · Pandas · Excel · Python · 转换层 ·

Pandas for Reproducible Data Analysis: From Spreadsheets to Research-Grade Python Workflows

翻译：面向可重复数据分析的 Pandas：从电子表格到研究级 Python 工作流

Sidney Shapiro,Daniel Pearson,Emiliano Sebastian Gonzalez Venegas

from arxiv, 39 pages, 8 figures

Spreadsheet-heavy analytical work remains common in business analytics, operations reporting, and applied research, yet workbooks that grow through formulas, manual edits, and copy-paste refresh are difficult to audit, reproduce, and govern at scale. When tabular work requires repeatability, validation, version control, automated refresh, or integration with statistics and machine learning, analysts need a transformation layer that preserves familiar table concepts while making assumptions explicit. This paper treats the Python pandas library as that layer: a practical bridge between spreadsheet practice and research-grade workflows, not a wholesale replacement for Excel. The paper contributes an Excel-to-pandas migration mapping, a taxonomy of nine workflow categories, seven end-to-end examples drawn from business analytics and applied research, a failure-mode catalog, and reusable code recipes for governed tabular work. pandas is most useful when tabular analysis must be repeatable, auditable, and defensible, while Excel can remain a familiar input and output interface for stakeholders who need workbooks.

翻译：电子表格主导的分析工作仍常见于业务分析、运营报告和应用研究中，然而，通过公式、手动编辑和复制粘贴更新演进的工作簿，在规模化审计、复现和管控方面面临诸多困难。当表格工作需具备可重复性、可验证性、版本控制、自动刷新或需与统计及机器学习集成时，分析师需要一个转换层，在保留熟悉表格概念的同时使假设显式化。本文将 Python pandas 库视为这一转换层：一座连接电子表格实践与研究级工作流的实用桥梁，而非对 Excel 的完全替代。本文提供了从 Excel 到 Pandas 的迁移映射、涵盖九类工作流的分类体系、七个源自业务分析与应用研究的端到端示例、一份故障模式目录，以及面向受控表格工作的可复用代码方案。当表格分析须具备可重复性、可审计性和可辩护性时，Pandas 最为实用；同时，对于需要工作簿的利益相关方，Excel 仍可作为熟悉的输入输出界面。

0

相关内容

《人人都会用的Pandas：Python数据分析（第2版）》，512页pdf

《人人都会用的Pandas：Python数据分析（第2版）》，512页pdf

专知会员服务

39+阅读 · 2024年8月11日

【2022新书】Python数据分析第三版，与Pandas、NumPy和Jupyter进行数据争论

【2022新书】Python数据分析第三版，与Pandas、NumPy和Jupyter进行数据争论

专知会员服务

124+阅读 · 2022年10月16日

表格识别技术研究进展

表格识别技术研究进展

专知会员服务

38+阅读 · 2022年7月4日

【干货书】Python数据科学分析，413页pdf

【干货书】Python数据科学分析，413页pdf

专知会员服务

93+阅读 · 2020年8月22日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【干货书】Python高级数据科学分析，424页pdf

【干货书】Python高级数据科学分析，424页pdf

专知会员服务

117+阅读 · 2020年8月7日

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

专知会员服务

157+阅读 · 2020年6月7日

【实用书】掌握Python数据分析，282页pdf，Mastering Python Data Analysis

【实用书】掌握Python数据分析，282页pdf，Mastering Python Data Analysis

专知会员服务

104+阅读 · 2020年4月22日

【实用书】Python数据分析与可视化，390页pdf，分析数据以创建BI系统的可视化

【实用书】Python数据分析与可视化，390页pdf，分析数据以创建BI系统的可视化

专知会员服务

164+阅读 · 2020年4月13日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

专知

29+阅读 · 2020年3月24日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

一文看懂怎么用 Python 做数据分析

一文看懂怎么用 Python 做数据分析

大数据技术

24+阅读 · 2019年5月5日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

大神自学后作《Python数据分析入门——从数据获取到可视化》

大神自学后作《Python数据分析入门——从数据获取到可视化》

数据猿

19+阅读 · 2018年5月29日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

荐书丨Python数据分析从入门到精通

荐书丨Python数据分析从入门到精通

程序人生

19+阅读 · 2018年3月31日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

一位数据分析师的书单

一位数据分析师的书单

R语言中文社区

12+阅读 · 2017年10月28日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

LogCopilot: Automating Log Aggregation Analysis through Large Language Models

Arxiv

0+阅读 · 6月13日

SoK: Reconstruction Attacks on Synthetic Tabular Data (Insights from Winning the NIST CRC)

Arxiv

0+阅读 · 6月6日

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

Arxiv

0+阅读 · 6月4日

QDAG: Declarative Composition of Reusable Analytics Methodologies at LinkedIn

Arxiv

0+阅读 · 6月4日

Pivoting the paradigm: the role of spreadsheets in K-12 data science

Arxiv

0+阅读 · 6月3日

GraftDB: Dynamic Folding of Concurrent Analytical Queries

Arxiv

0+阅读 · 6月3日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 6月1日

Self-Ensembling Vision-Language Models for Chart Data Extraction

Arxiv

0+阅读 · 5月26日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 5月26日

BookReconciler: An Open-Source Tool for Metadata Enrichment and Work-Level Clustering

Arxiv

0+阅读 · 5月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《人人都会用的Pandas：Python数据分析（第2版）》，512页pdf

《人人都会用的Pandas：Python数据分析（第2版）》，512页pdf

专知会员服务

39+阅读 · 2024年8月11日

【2022新书】Python数据分析第三版，与Pandas、NumPy和Jupyter进行数据争论

【2022新书】Python数据分析第三版，与Pandas、NumPy和Jupyter进行数据争论

专知会员服务

124+阅读 · 2022年10月16日

表格识别技术研究进展

表格识别技术研究进展

专知会员服务

38+阅读 · 2022年7月4日

【干货书】Python数据科学分析，413页pdf

【干货书】Python数据科学分析，413页pdf

专知会员服务

93+阅读 · 2020年8月22日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【干货书】Python高级数据科学分析，424页pdf

【干货书】Python高级数据科学分析，424页pdf

专知会员服务

117+阅读 · 2020年8月7日

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

【2020新书】Pandas编程思想，190页pdf阐述正确使用Python数据分析库

专知会员服务

157+阅读 · 2020年6月7日

【实用书】掌握Python数据分析，282页pdf，Mastering Python Data Analysis

【实用书】掌握Python数据分析，282页pdf，Mastering Python Data Analysis

专知会员服务

104+阅读 · 2020年4月22日

【实用书】Python数据分析与可视化，390页pdf，分析数据以创建BI系统的可视化

【实用书】Python数据分析与可视化，390页pdf，分析数据以创建BI系统的可视化

专知会员服务

164+阅读 · 2020年4月13日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

专知

29+阅读 · 2020年3月24日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

一文看懂怎么用 Python 做数据分析

一文看懂怎么用 Python 做数据分析

大数据技术

24+阅读 · 2019年5月5日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

大神自学后作《Python数据分析入门——从数据获取到可视化》

大神自学后作《Python数据分析入门——从数据获取到可视化》

数据猿

19+阅读 · 2018年5月29日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

荐书丨Python数据分析从入门到精通

荐书丨Python数据分析从入门到精通

程序人生

19+阅读 · 2018年3月31日

【入门】数据分析六部曲

【入门】数据分析六部曲

36大数据

18+阅读 · 2017年12月6日

一位数据分析师的书单

一位数据分析师的书单

R语言中文社区

12+阅读 · 2017年10月28日

相关论文

LogCopilot: Automating Log Aggregation Analysis through Large Language Models

Arxiv

0+阅读 · 6月13日

SoK: Reconstruction Attacks on Synthetic Tabular Data (Insights from Winning the NIST CRC)

Arxiv

0+阅读 · 6月6日

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

Arxiv

0+阅读 · 6月4日

QDAG: Declarative Composition of Reusable Analytics Methodologies at LinkedIn

Arxiv

0+阅读 · 6月4日

Pivoting the paradigm: the role of spreadsheets in K-12 data science

Arxiv

0+阅读 · 6月3日

GraftDB: Dynamic Folding of Concurrent Analytical Queries

Arxiv

0+阅读 · 6月3日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 6月1日

Self-Ensembling Vision-Language Models for Chart Data Extraction

Arxiv

0+阅读 · 5月26日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 5月26日

BookReconciler: An Open-Source Tool for Metadata Enrichment and Work-Level Clustering

Arxiv

0+阅读 · 5月25日

相关基金

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向流程工业的分布式状态估计与输出反馈控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员