Android malware detection increasingly relies on collecting and processing sensitive user data, including device identifiers, network artifacts, and runtime traces, while privacy is too often treated as a secondary concern. Existing privacy-aware approaches typically enforce privacy after data collection, for example, through anonymization, encryption, or federated learning, yet still require access to user information and therefore demand a high level of user trust in systems that already operate with privileged access to device activity. We argue that this requirement should be removed rather than managed. Android malware detection should be privacy-aware by design, so that effective analysis does not depend on sensitive data being accessed in the first place. To this end, we first formalize a set of design requirements for privacy-by-design detection and then implement each requirement in a comprehensive pipeline. First, static analysis is performed to extract relevant data from each APK, following the Drebin representation, which is then submitted to an SVM after vectorization. The model is equipped with a dual-reject threshold rule that either commits to a confident decision or defers uncertain samples to a dynamic analysis stage within a sandboxed environment, so that genuine user information never enters the analysis loop. Results confirm that, on a temporally split dataset spanning from 2024 to 2025, the pipeline achieves an F1 score of 0.87 with the first static analysis stage, deferring only 6.7% of test samples to secondary dynamic analysis. Additionally, dynamic sandboxing helps recognize applications' maliciousness with high confidence without extracting any sensitive data. These results demonstrate that strong detection performance is achievable without sacrificing user privacy.


翻译:安卓恶意软件检测日益依赖于收集和处理敏感用户数据,包括设备标识符、网络痕迹和运行时追踪,而隐私往往被视为次要问题。现有的隐私感知方法通常在数据收集后才强制执行隐私保护,例如通过匿名化、加密或联邦学习,但仍需访问用户信息,因此要求用户对已经拥有设备活动特权访问的系统高度信任。我们认为,这一要求应被消除而非被管理。安卓恶意软件检测应从设计上具备隐私意识,使得有效分析不依赖于首先访问敏感数据。为此,我们首先形式化一组隐私内建设计检测的设计要求,然后在综合管道中实现每项要求。首先,执行静态分析,从每个APK中提取相关数据,遵循Drebin表示,然后向量化后提交给SVM。该模型配有一个双重拒绝阈值规则,要么做出自信决策,要么将不确定样本延迟到沙盒环境中的动态分析阶段,这样真实用户信息永远不会进入分析循环。结果证实,在一个从2024年到2025年的时间分割数据集上,该管道在第一个静态分析阶段达到了0.87的F1分数,仅将6.7%的测试样本延迟到次级动态分析。此外,动态沙盒有助于高置信度识别应用程序的恶意性,而不提取任何敏感数据。这些结果表明,在不牺牲用户隐私的情况下可以实现强大的检测性能。

0
下载
关闭预览

相关内容

《基于动态图神经网络的恶意软件检测》
专知会员服务
16+阅读 · 1月28日
《使用静态污点分析检测恶意代码》CMU最新30页slides
专知会员服务
22+阅读 · 2023年10月11日
移动应用(APP)个人信息保护白皮书
专知会员服务
17+阅读 · 2021年10月31日
专知会员服务
19+阅读 · 2021年6月10日
专知会员服务
96+阅读 · 2021年5月17日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员