Mobile application developers are required to disclose how they collect, use, and share user data in compliance with privacy regulations. To support transparency, major app marketplaces have introduced standardized disclosure mechanisms. In 2022, Google mandated the Data Safety Section (DSS) on Google Play, requiring developers to summarize their data practices. However, compiling accurate DSS disclosures is challenging, as they must remain consistent with the corresponding privacy policy (PP), and no automated tool currently verifies this alignment. Prior studies indicate that nearly 80% of popular apps contain incomplete or misleading DSS declarations. We present PolicyGapper, an LLM-based methodology for automatically detecting discrepancies between DSS disclosures and privacy policies. PolicyGapper operates in four stages: scraping, pre-processing, analysis, and post-processing, without requiring access to application binaries. We evaluate PolicyGapper on a dataset of 330 top-ranked apps spanning all 33 Google Play categories, collected in Q3 2025. The approach identifies 2,689 omitted disclosures, including 2,040 related to data collection and 649 to data sharing. Manual validation on a stratified 10% subset, repeated across three independent runs, yields an average Precision of 0.75, Recall of 0.77, Accuracy of 0.69, and F1-score of 0.76. To support reproducibility, we release a complete replication package, including the dataset, prompts, source code, and results available at https://github.com/Mobile-IoT-Security-Lab/PolicyGapper and https://doi.org/10.5281/zenodo.19628493.


翻译:移动应用开发者需要按照隐私法规披露其如何收集、使用和共享用户数据。为提升透明度,主流应用市场引入了标准化的披露机制。2022年,谷歌要求在Google Play中提供数据安全部分(DSS),要求开发者总结其数据处理实践。然而,编制准确的DSS披露信息具有挑战性,因为其必须与相应的隐私策略(PP)保持一致,而目前尚无自动化工具验证这种一致性。已有研究表明,近80%的热门应用包含不完整或具有误导性的DSS声明。我们提出PolicyGapper,一种基于大语言模型的方法,用于自动检测DSS披露信息与隐私策略之间的差异。PolicyGapper包含四个阶段:数据抓取、预处理、分析和后处理,无需访问应用二进制文件。我们在2025年第三季度收集的覆盖所有33个Google Play类别的330个顶级应用数据集上评估了PolicyGapper。该方法识别出2,689个遗漏的披露项,其中2,040个与数据收集相关,649个与数据共享相关。在分层抽取的10%子集上,经过三次独立重复运行的人工验证得出,平均精确率为0.75,召回率为0.77,准确率为0.69,F1分数为0.76。为支持可重复性,我们发布了完整的复现包,包括数据集、提示词、源代码和结果,可在https://github.com/Mobile-IoT-Security-Lab/PolicyGapper 和 https://doi.org/10.5281/zenodo.19628493 获取。

0
下载
关闭预览

相关内容

Google Play(前 Android Market) 是一个由谷歌公司为 Android 系统用户创建的服务,允许安装了 Android 系统的手机和平板电脑用户从 Android Market 浏览和下载一些应用程序。用户可以购买或免费试用这些应用程序。
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
图数据上的隐私攻击与防御技术
专知会员服务
28+阅读 · 2022年4月28日
专知会员服务
14+阅读 · 2021年9月14日
专知会员服务
40+阅读 · 2020年12月20日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员