Many a Little Makes a Mickle: A Code-Centric Empirical Study of Data Minimization Principle in Android App Development - 专知论文

会员服务 ·

0

代码 · 安卓 · 操作 · 安卓应用开发 · 应用开发 ·

Many a Little Makes a Mickle: A Code-Centric Empirical Study of Data Minimization Principle in Android App Development

翻译：集腋成裘：安卓应用开发中数据最小化原则的以代码为中心的实证研究

Dianshu Liao,Shidong Pan,Zhenchang Xing,Xiaoyu Sun

Modern mobile applications consume large amounts of data to function, raising significant privacy concerns and regulatory challenges. While prior work has primarily focused on detecting compliance gaps through policy analysis, there remains a lack of actionable guidance for developers to implement privacy principles at the code level. In this paper, we focus on data minimization as a developer-operationalizable principle and investigate its realization in Android applications. We conduct a formative study on 1,114 open-source Android apps to identify ten recurring data minimization scenarios across five data-handling stages. Building on this, we perform a large-scale analysis of 9,875 real-world APKs and distill 31 actionable coding guidelines to support privacy-compliant development. We further examine LLM-based code generation in Android development and find that state-of-the-art models consistently reproduce data minimization-risky practices, indicating that they inherit and amplify patterns from real-world code. Encouragingly, incorporating our guidelines eliminates these issues across all evaluated models. Our work advocates a shift toward responding to privacy regulatory requirements at their code-level root causes, enabling better compliance in both human and AI-assisted programming.

翻译：现代移动应用为发挥功能而消耗大量数据，引发了严重的隐私担忧和监管挑战。虽然以往工作主要通过政策分析来检测合规性差距，但仍缺乏可操作的指导来帮助开发者在代码层面实现隐私原则。本文聚焦数据最小化这一可开发者操作化的原则，研究其在安卓应用中的实现。我们对1,114个开源安卓应用进行形成性研究，识别出跨五个数据处理阶段的十个重复出现的数据最小化场景。基于此，我们对9,875个真实世界的APK进行大规模分析，提炼出31条可操作的编码指南以支持隐私合规开发。我们进一步考察了安卓开发中基于大语言模型的代码生成，发现最先进的模型持续复现数据最小化风险做法，表明它们继承并放大了真实世界代码中的模式。令人鼓舞的是，纳入我们的指南后，所有被评估模型的这些问题均被消除。我们的工作倡导转向在代码级根源上响应隐私监管要求，从而在人工与AI辅助编程中实现更好的合规性。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【Manning新书】面向数据编程降低软件复杂度，426页pdf

【Manning新书】面向数据编程降低软件复杂度，426页pdf

专知会员服务

88+阅读 · 2022年9月5日

小数据如何学习？吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用

小数据如何学习？吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用

专知会员服务

74+阅读 · 2022年8月1日

【Manning新书】面向数据编程：减少软件复杂度，426页pdf

【Manning新书】面向数据编程：减少软件复杂度，426页pdf

专知会员服务

81+阅读 · 2022年7月20日

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

专知会员服务

42+阅读 · 2021年7月6日

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

专知会员服务

189+阅读 · 2021年6月1日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

专知会员服务

30+阅读 · 2019年11月30日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知会员服务

153+阅读 · 2019年10月18日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

专知

105+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

MASCOT-Android: A Curated Dataset and Automated Collection Pipeline for Android Malware Source Code Specimens

Arxiv

0+阅读 · 6月16日

MASCOT-Android: A Curated Dataset and Automated Collection Pipeline for Android Malware Source Code Specimens

Arxiv

0+阅读 · 6月15日

Evaluating LLMs for Obfuscation Detection and Classification in Android Apps

Arxiv

0+阅读 · 6月12日

Relocate and Emulate: Re-Hosting Android's Application Layer

Arxiv

0+阅读 · 6月8日

The Sound of Malware: A Memory Forensics Approach for Android Malware Analysis via Audio Signals

Arxiv

0+阅读 · 6月5日

Model Recycling Framework for Multi-Source Data-Free Supervised Transfer Learning

Arxiv

0+阅读 · 6月5日

Efficient and Privacy-Preserving Distribution Statistics Analytics on Mobile Spatial Data

Arxiv

0+阅读 · 6月4日

Efficient and Privacy-Preserving Distribution Statistics Analytics on Mobile Spatial Data

Arxiv

0+阅读 · 5月25日

Comparing Smart Contract Paradigms: A Preliminary Study of Security and Developer Experience

Arxiv

0+阅读 · 5月20日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

VIP会员

文章信息

相关主题

安卓应用开发

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【Manning新书】面向数据编程降低软件复杂度，426页pdf

【Manning新书】面向数据编程降低软件复杂度，426页pdf

专知会员服务

88+阅读 · 2022年9月5日

小数据如何学习？吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用

小数据如何学习？吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用

专知会员服务

74+阅读 · 2022年8月1日

【Manning新书】面向数据编程：减少软件复杂度，426页pdf

【Manning新书】面向数据编程：减少软件复杂度，426页pdf

专知会员服务

81+阅读 · 2022年7月20日

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

专知会员服务

42+阅读 · 2021年7月6日

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

专知会员服务

189+阅读 · 2021年6月1日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

专知会员服务

30+阅读 · 2019年11月30日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知会员服务

153+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

专知

105+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

相关论文

MASCOT-Android: A Curated Dataset and Automated Collection Pipeline for Android Malware Source Code Specimens

Arxiv

0+阅读 · 6月16日

MASCOT-Android: A Curated Dataset and Automated Collection Pipeline for Android Malware Source Code Specimens

Arxiv

0+阅读 · 6月15日

Evaluating LLMs for Obfuscation Detection and Classification in Android Apps

Arxiv

0+阅读 · 6月12日

Relocate and Emulate: Re-Hosting Android's Application Layer

Arxiv

0+阅读 · 6月8日

The Sound of Malware: A Memory Forensics Approach for Android Malware Analysis via Audio Signals

Arxiv

0+阅读 · 6月5日

Model Recycling Framework for Multi-Source Data-Free Supervised Transfer Learning

Arxiv

0+阅读 · 6月5日

Efficient and Privacy-Preserving Distribution Statistics Analytics on Mobile Spatial Data

Arxiv

0+阅读 · 6月4日

Efficient and Privacy-Preserving Distribution Statistics Analytics on Mobile Spatial Data

Arxiv

0+阅读 · 5月25日

Comparing Smart Contract Paradigms: A Preliminary Study of Security and Developer Experience

Arxiv

0+阅读 · 5月20日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员