Despite their wide adoption in various domains (e.g., healthcare, finance, software engineering), Deep Learning (DL)-based applications suffer from many bugs, failures, and vulnerabilities. Reproducing these bugs is essential for their resolution, but it is extremely challenging due to the inherent nondeterminism of DL models and their tight coupling with hardware and software environments. According to recent studies, only about 3% of DL bugs can be reliably reproduced using manual approaches. To address these challenges, we present RepGen, a novel, automated, and intelligent approach for reproducing deep learning bugs. RepGen constructs a learning-enhanced context from a project, develops a comprehensive plan for bug reproduction, employs an iterative generate-validate-refine mechanism, and thus generates such code using an LLM that reproduces the bug at hand. We evaluate RepGen on 106 real-world deep learning bugs and achieve a reproduction rate of 80.19%, a 19.81% improvement over the state-of-the-art measure. A developer study involving 27 participants shows that RepGen improves the success rate of DL bug reproduction by 23.35%, reduces the time to reproduce by 56.8%, and lowers participants' cognitive load.


翻译:尽管深度学习(DL)应用已在多个领域(如医疗保健、金融、软件工程)得到广泛采用,但其仍存在大量缺陷、故障与漏洞。复现这些缺陷对于问题解决至关重要,然而由于深度学习模型固有的非确定性及其与软硬件环境的紧密耦合,复现过程极具挑战性。近期研究表明,仅约3%的深度学习缺陷可通过人工方法可靠复现。为应对这些挑战,本文提出RepGen——一种新颖、自动化、智能的深度学习缺陷复现方法。RepGen通过构建项目的学习增强上下文,制定全面的缺陷复现计划,采用迭代式的生成-验证-优化机制,最终利用大语言模型生成能够复现目标缺陷的代码。我们在106个真实场景的深度学习缺陷上评估RepGen,实现了80.19%的复现率,较现有最优方法提升19.81%。一项涉及27名开发者的实证研究表明,RepGen将深度学习缺陷复现成功率提高23.35%,复现时间缩短56.8%,并有效降低了参与者的认知负荷。

0
下载
关闭预览

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【博士论文】深度学习中的推理不一致性及其缓解方法
专知会员服务
25+阅读 · 2025年4月5日
【2023新书】可解释的深度学习AI:方法和挑战,348页pdf
专知会员服务
168+阅读 · 2023年3月26日
深度学习算法与架构回顾
专知会员服务
84+阅读 · 2019年10月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【博士论文】深度学习中的推理不一致性及其缓解方法
专知会员服务
25+阅读 · 2025年4月5日
【2023新书】可解释的深度学习AI:方法和挑战,348页pdf
专知会员服务
168+阅读 · 2023年3月26日
深度学习算法与架构回顾
专知会员服务
84+阅读 · 2019年10月20日
相关资讯
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员