\underline{Context:} Logging is a fundamental yet complex practice in software engineering, essential for monitoring, debugging, and auditing software systems. With the increasing integration of machine learning (ML) components into software systems, effective logging has become critical to ensure reproducibility, traceability, and observability throughout model training and deployment. Although various general-purpose and ML-specific logging frameworks exist, little is known about how these tools are actually used in practice or whether ML practitioners adopt consistent and effective logging strategies. To date, no empirical study has systematically characterized recurring bad logging practices--or logging smells--in ML System. \underline{Goal:} This study aims to empirically identify and characterize logging smells in ML systems, providing an evidence-based understanding of how logging is implemented and challenged in practice. \underline{Method:} We propose to conduct a large-scale mining of open-source ML repositories hosted on GitHub to catalogue recurring logging smells. Subsequently, a practitioner survey involving ML engineers will be conducted to assess the perceived relevance, severity, and frequency of the identified smells. \underline{Limitations:} % While The study's limitations include that While our findings may not be generalizable to closed-source industrial projects, we believe our study provides an essential step toward understanding and improving logging practices in ML development.


翻译:\underline{背景:} 日志记录是软件工程中一项基础而复杂的实践,对于软件系统的监控、调试和审计至关重要。随着机器学习(ML)组件日益集成到软件系统中,有效的日志记录对于确保模型训练和部署过程中的可复现性、可追溯性和可观测性变得极为关键。尽管存在多种通用和ML专用的日志记录框架,但人们对于这些工具在实际中如何被使用,或者ML从业者是否采用一致且有效的日志记录策略知之甚少。迄今为止,尚无实证研究系统地刻画ML系统中反复出现的糟糕日志实践——或称日志异味。\underline{目标:} 本研究旨在通过实证方法识别并刻画ML系统中的日志异味,提供关于日志记录在实践中如何实施及面临何种挑战的循证理解。\underline{方法:} 我们计划对托管在GitHub上的开源ML仓库进行大规模挖掘,以分类整理反复出现的日志异味。随后,将开展一项涉及ML工程师的从业者调查,以评估所识别异味的感知相关性、严重性和发生频率。\underline{局限性:} 虽然本研究的结果可能无法推广到闭源的工业项目,但我们相信,我们的研究为理解和改进ML开发中的日志记录实践迈出了重要一步。

0
下载
关闭预览

相关内容

《软件定义网络元素与机器代码的形式化验证》
专知会员服务
12+阅读 · 2025年11月18日
博士论文《联邦学习仿真器》221页,米兰理工大学
专知会员服务
31+阅读 · 2023年3月14日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员