Docker Does Not Guarantee Reproducibility - 专知论文

会员服务 ·

0

Docker · 可复现性 · 复现性 · 软件 · 镜像 ·

Docker Does Not Guarantee Reproducibility

翻译：Docker 无法保证可复现性

Julien Malka,Stefano Zacchiroli,Théo Zimmermann

The reproducibility of software environments is a critical concern in modern software engineering, with ramifications ranging from the effectiveness of collaboration workflows to software supply chain security and scientific reproducibility. Containerization technologies like Docker address this problem by encapsulating software environments into shareable filesystem snapshots known as images. While Docker is frequently cited in the literature as a tool that enables reproducibility in theory, the extent of its guarantees and limitations in practice remains under-explored. In this work, we address this gap through two complementary approaches. First, we conduct a systematic literature review to examine how Docker is framed in scientific discourse on reproducibility and to identify documented best practices for writing Dockerfiles enabling reproducible image building. Then, we perform a large-scale empirical study of 5298 Docker builds collected from GitHub workflows. By rebuilding these images and comparing the results with their historical counterparts, we assess the real reproducibility of Docker images and evaluate the effectiveness of the best practices identified in the literature.

翻译：软件环境的可复现性是现代软件工程中的关键问题，其影响范围涵盖协作工作流的有效性、软件供应链安全以及科学研究的可复现性。以 Docker 为代表的容器化技术通过将软件环境封装成可共享的文件系统快照（即镜像）来解决这一问题。尽管文献中常将 Docker 视为理论上可实现可复现性的工具，但其在实际应用中的保证程度与局限性仍未得到充分探究。本研究通过两种互补方法填补这一空白：首先，我们开展系统性文献综述，考察 Docker 在科学论述中如何被构建为可复现性工具，并识别出文献中记载的、能够实现可复现镜像构建的 Dockerfile 编写最佳实践；随后，我们对从 GitHub 工作流收集的 5298 个 Docker 构建进行大规模实证研究。通过重建这些镜像并将其结果与历史版本进行对比，我们评估了 Docker 镜像的实际可复现性，并对文献中识别的最佳实践的有效性进行了验证。

0

相关内容

Docker

Docker - An open platform for distributed applications for developers and sysadmins.

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

大模型报告:模型能力决定下限，场景适配度决定上限

大模型报告:模型能力决定下限，场景适配度决定上限

专知会员服务

57+阅读 · 2024年6月3日

《基于机器人操作系统 (ROS) 应用程序的 Docker 容器和绘图》51页报告

《基于机器人操作系统 (ROS) 应用程序的 Docker 容器和绘图》51页报告

专知会员服务

38+阅读 · 2024年1月15日

《通过人工智能和计算几何从卫星图像中重建 3D 环境以在混合现实中进行开发》北约科技组织2022最新14页报告

《通过人工智能和计算几何从卫星图像中重建 3D 环境以在混合现实中进行开发》北约科技组织2022最新14页报告

专知会员服务

39+阅读 · 2022年11月1日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

【2020新书】使用Kubernetes开发高级平台，519页pdf

【2020新书】使用Kubernetes开发高级平台，519页pdf

专知会员服务

70+阅读 · 2020年9月19日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

专知会员服务

21+阅读 · 2019年11月5日

GraphSAGE：我寻思GCN也没我牛逼

GraphSAGE：我寻思GCN也没我牛逼

极市平台

12+阅读 · 2019年8月12日

通过Docker安装谷歌足球游戏环境

通过Docker安装谷歌足球游戏环境

CreateAMind

12+阅读 · 2019年7月7日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

环保袋：你用它的方式，可能很不环保

环保袋：你用它的方式，可能很不环保

果壳网

12+阅读 · 2019年3月10日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

DevOps时代

36+阅读 · 2018年7月19日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云计算数据隐私保护的访问控制策略模型与技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

云存储中无证书可证明数据持有方案关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

云移植中遗留系统组件重用研究

国家自然科学基金

0+阅读 · 2014年12月31日

Decomposing Docker Container Startup Performance: A Three-Tier Measurement Study on Heterogeneous Infrastructure

Arxiv

0+阅读 · 2月16日

Real time, cross platform visualizations with zero dependencies for the N-body package REBOUND

Arxiv

0+阅读 · 2月6日

Artificial Intelligence in Open Source Software Engineering: A Foundation for Sustainability

Arxiv

0+阅读 · 2月5日

Pending Conflicts Make Progress Impossible

Arxiv

0+阅读 · 2月3日

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

Arxiv

0+阅读 · 2月3日

DockSmith: Scaling Reliable Coding Environments via an Agentic Docker Builder

Arxiv

0+阅读 · 1月31日

Uncovering Hidden Inclusions of Vulnerable Dependencies in Real-World Java Projects

Arxiv

0+阅读 · 1月30日

Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help

Arxiv

0+阅读 · 1月23日

Insecure Ingredients? Exploring Dependency Update Patterns of Bundled JavaScript Packages on the Web

Arxiv

0+阅读 · 1月23日

Governance Matters: Lessons from Restructuring the data.table OSS Project

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

2+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

5+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

大模型报告:模型能力决定下限，场景适配度决定上限

大模型报告:模型能力决定下限，场景适配度决定上限

专知会员服务

57+阅读 · 2024年6月3日

《基于机器人操作系统 (ROS) 应用程序的 Docker 容器和绘图》51页报告

《基于机器人操作系统 (ROS) 应用程序的 Docker 容器和绘图》51页报告

专知会员服务

38+阅读 · 2024年1月15日

《通过人工智能和计算几何从卫星图像中重建 3D 环境以在混合现实中进行开发》北约科技组织2022最新14页报告

《通过人工智能和计算几何从卫星图像中重建 3D 环境以在混合现实中进行开发》北约科技组织2022最新14页报告

专知会员服务

39+阅读 · 2022年11月1日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

【2020新书】使用Kubernetes开发高级平台，519页pdf

【2020新书】使用Kubernetes开发高级平台，519页pdf

专知会员服务

70+阅读 · 2020年9月19日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

【O'Reilly AI Conference 2019】使用GPU和Docker容器进行Horovod和Spark深度学习（Deep learning with Horovod and Spark using GPUs and Docker containers），BlueData的联合创始人兼首席架构师Thomas Phelan

专知会员服务

21+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

GraphSAGE：我寻思GCN也没我牛逼

GraphSAGE：我寻思GCN也没我牛逼

极市平台

12+阅读 · 2019年8月12日

通过Docker安装谷歌足球游戏环境

通过Docker安装谷歌足球游戏环境

CreateAMind

12+阅读 · 2019年7月7日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

环保袋：你用它的方式，可能很不环保

环保袋：你用它的方式，可能很不环保

果壳网

12+阅读 · 2019年3月10日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

DevOps时代

36+阅读 · 2018年7月19日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Decomposing Docker Container Startup Performance: A Three-Tier Measurement Study on Heterogeneous Infrastructure

Arxiv

0+阅读 · 2月16日

Real time, cross platform visualizations with zero dependencies for the N-body package REBOUND

Arxiv

0+阅读 · 2月6日

Artificial Intelligence in Open Source Software Engineering: A Foundation for Sustainability

Arxiv

0+阅读 · 2月5日

Pending Conflicts Make Progress Impossible

Arxiv

0+阅读 · 2月3日

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

Arxiv

0+阅读 · 2月3日

DockSmith: Scaling Reliable Coding Environments via an Agentic Docker Builder

Arxiv

0+阅读 · 1月31日

Uncovering Hidden Inclusions of Vulnerable Dependencies in Real-World Java Projects

Arxiv

0+阅读 · 1月30日

Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help

Arxiv

0+阅读 · 1月23日

Insecure Ingredients? Exploring Dependency Update Patterns of Bundled JavaScript Packages on the Web

Arxiv

0+阅读 · 1月23日

Governance Matters: Lessons from Restructuring the data.table OSS Project

Arxiv

0+阅读 · 1月19日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云计算数据隐私保护的访问控制策略模型与技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

云存储中无证书可证明数据持有方案关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

云移植中遗留系统组件重用研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员