Software systems increasingly include AI components based on deep learning (DL). Reliable testing of such systems requires near-perfect test-input validity and label accuracy, with minimal human effort. Yet, the DL community has largely overlooked the need to build highly accurate datasets with minimal effort, since DL training is generally tolerant of labelling errors. This challenge, instead, reflects concerns more familiar to software engineering, where a central goal is to construct high-accuracy test inputs, with accuracy as close to 100% as possible, while keeping associated costs in check. In this article we introduce OPAL, a human-assisted labelling method that can be configured to target a desired accuracy level while minimizing the manual effort required for labelling. The main contribution of OPAL is a mixed-integer linear programming (MILP) formulation that minimizes labelling effort subject to a specified accuracy target. To evaluate OPAL we instantiate it for two tasks in the context of testing vision systems: automatic labelling of test inputs and automated validation of test inputs. Our evaluation, based on more than 2500 experiments performed on nine datasets, comparing OPAL with eight baseline methods, shows that OPAL, relying on its MILP formulation, achieves an average accuracy of 98.8%, while cutting manual labelling by more than half. OPAL significantly outperforms automated labelling baselines in labelling accuracy across all nine datasets, when all methods are provided with the same manual-labelling budget. For automated test-input validation, on average, OPAL reduces manual effort by 28.8% while achieving 4.5% higher accuracy than the SOTA test-input validation baselines. Finally, we show that augmenting OPAL with an active-learning loop leads to an additional 4.5% reduction in required manual labelling, without compromising accuracy.


翻译:摘要:软件系统日益包含基于深度学习(DL)的人工智能组件。对此类系统进行可靠测试需要近乎完美的测试输入有效性与标注精度,同时将人力投入降至最低。然而,深度学习社区在很大程度上忽略了以最小努力构建高精度数据集的需求,因为DL训练通常对标注错误具有一定容忍度。相反,这一挑战更契合软件工程领域的关注重点——其核心目标是以尽可能接近100%的精度构建高准确性测试输入,同时控制相关成本。本文提出OPAL,一种可配置的人工辅助标注方法,旨在针对目标精度水平最小化所需的手动标注努力。OPAL的核心贡献在于提出一种混合整数线性规划(MILP)公式,在指定精度目标约束下最小化标注工作。为评估OPAL,我们将其实例化于视觉系统测试中的两项任务:测试输入的自动标注与自动验证。基于九个数据集、超过2500次实验的评估(将OPAL与八种基线方法对比)表明:依赖其MILP公式的OPAL在将手动标注量削减超过一半的同时,实现了平均98.8%的精度。在所有方法获得相同手动标注预算的情况下,OPAL在所有九个数据集上的标注精度均显著优于自动标注基线方法。在测试输入的自动验证方面,OPAL平均削减28.8%的手动工作量,同时比当前最先进的测试输入验证基线方法精度提高4.5%。最后,我们证明将OPAL与主动学习循环相结合可在不牺牲精度的前提下,额外减少4.5%的手动标注需求。

0
下载
关闭预览

相关内容

西北大学等最新《深度主动学习》全面综述论文,30页pdf
深度学习目标检测算法综述
AI研习社
25+阅读 · 2019年2月1日
博客 | 基于深度学习的目标检测算法综述(二)
AI研习社
11+阅读 · 2018年8月22日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Anomalous Instance Detection in Deep Learning: A Survey
Arxiv
16+阅读 · 2020年2月6日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
西北大学等最新《深度主动学习》全面综述论文,30页pdf
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员