Modern mobile applications consume large amounts of data to function, raising significant privacy concerns and regulatory challenges. While prior work has primarily focused on detecting compliance gaps through policy analysis, there remains a lack of actionable guidance for developers to implement privacy principles at the code level. In this paper, we focus on data minimization as a developer-operationalizable principle and investigate its realization in Android applications. We conduct a formative study on 1,114 open-source Android apps to identify ten recurring data minimization scenarios across five data-handling stages. Building on this, we perform a large-scale analysis of 9,875 real-world APKs and distill 31 actionable coding guidelines to support privacy-compliant development. We further examine LLM-based code generation in Android development and find that state-of-the-art models consistently reproduce data minimization-risky practices, indicating that they inherit and amplify patterns from real-world code. Encouragingly, incorporating our guidelines eliminates these issues across all evaluated models. Our work advocates a shift toward responding to privacy regulatory requirements at their code-level root causes, enabling better compliance in both human and AI-assisted programming.


翻译:现代移动应用为发挥功能而消耗大量数据,引发了严重的隐私担忧和监管挑战。虽然以往工作主要通过政策分析来检测合规性差距,但仍缺乏可操作的指导来帮助开发者在代码层面实现隐私原则。本文聚焦数据最小化这一可开发者操作化的原则,研究其在安卓应用中的实现。我们对1,114个开源安卓应用进行形成性研究,识别出跨五个数据处理阶段的十个重复出现的数据最小化场景。基于此,我们对9,875个真实世界的APK进行大规模分析,提炼出31条可操作的编码指南以支持隐私合规开发。我们进一步考察了安卓开发中基于大语言模型的代码生成,发现最先进的模型持续复现数据最小化风险做法,表明它们继承并放大了真实世界代码中的模式。令人鼓舞的是,纳入我们的指南后,所有被评估模型的这些问题均被消除。我们的工作倡导转向在代码级根源上响应隐私监管要求,从而在人工与AI辅助编程中实现更好的合规性。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
【Manning新书】面向数据编程降低软件复杂度,426页pdf
专知会员服务
88+阅读 · 2022年9月5日
【Manning新书】面向数据编程:减少软件复杂度,426页pdf
专知会员服务
81+阅读 · 2022年7月20日
【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
42+阅读 · 2021年7月6日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
【Manning新书】面向数据编程降低软件复杂度,426页pdf
专知会员服务
88+阅读 · 2022年9月5日
【Manning新书】面向数据编程:减少软件复杂度,426页pdf
专知会员服务
81+阅读 · 2022年7月20日
【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
42+阅读 · 2021年7月6日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员