Automated Generation of Accurate Privacy Captions From Android Source Code Using Large Language Models - 专知论文

会员服务 ·

0

代码 · 安卓 · 粒度 · 语言模型 · 上下文 ·

Automated Generation of Accurate Privacy Captions From Android Source Code Using Large Language Models

翻译：基于大语言模型从安卓源代码自动生成精准隐私摘要

Vijayanta Jain,Sepideh Ghanavati,Sai Teja Peddinti,Collin McMillan

Privacy captions are short sentences that succinctly describe what personal information is used, how it is used, and why, within an app. These captions can be utilized in various notice formats, such as privacy policies, app rationales, and app store descriptions. However, inaccurate captions may mislead users and expose developers to regulatory fines. Existing approaches to generating privacy notices or just privacy captions include using questionnaires, templates, static analysis, or machine learning. However, these approaches either rely heavily on developers' inputs and thus strain their efforts, use limited source code context, leading to the incomplete capture of app privacy behaviors, or depend on potentially inaccurate privacy policies as a source for creating notices. In this work, we address these limitations by developing Privacy Caption Generator (PCapGen), an approach that - i) automatically identifies and extracts large and precise source code context that implements privacy behaviors in an app, ii) uses a Large Language Model (LLM) to describe coarse- and fine-grained privacy behaviors, and iii) generates accurate, concise, and complete privacy captions to describe the privacy behaviors of the app. Our evaluation shows PCapGen generates concise, complete, and accurate privacy captions as compared to the baseline approach. Furthermore, privacy experts choose PCapGen captions at least 71\% of the time, whereas LLMs-as-judge prefer PCapGen captions at least 76\% of the time, indicating strong performance of our approach.

翻译：隐私摘要是一种简洁描述应用程序中使用了哪些个人信息、如何使用以及为何使用的短句。这些摘要可用于多种通知形式，如隐私政策、应用原理说明和应用商店描述。然而，不准确的摘要可能误导用户并使开发者面临监管罚款。现有生成隐私通知或隐私摘要的方法包括使用问卷、模板、静态分析或机器学习。但这些方法要么严重依赖开发者输入从而增加其负担，要么使用有限的源代码上下文导致无法完整捕获应用隐私行为，要么依赖可能不准确的隐私政策作为生成通知的来源。本研究通过开发隐私摘要生成器（PCapGen）来解决这些局限性，该方法能够：i) 自动识别并提取实现应用隐私行为的大规模精确源代码上下文；ii) 使用大语言模型（LLM）描述粗粒度和细粒度的隐私行为；iii) 生成准确、简洁且完整的隐私摘要以描述应用的隐私行为。评估结果表明，与基线方法相比，PCapGen生成的隐私摘要更简洁、完整且准确。此外，隐私专家在至少71%的情况下选择PCapGen生成的摘要，而基于LLM的评估者在至少76%的情况下更倾向于PCapGen摘要，这表明我们的方法具有优越性能。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【CVPR2025】基于大语言模型的视频摘要生成

【CVPR2025】基于大语言模型的视频摘要生成

专知会员服务

12+阅读 · 2025年4月21日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

专知会员服务

26+阅读 · 2024年7月2日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

【Manning新书】隐私保护的机器学习，323页pdf

【Manning新书】隐私保护的机器学习，323页pdf

专知会员服务

56+阅读 · 2022年11月4日

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

专知会员服务

21+阅读 · 2022年6月24日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

专知

13+阅读 · 2017年12月11日

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

专知

13+阅读 · 2017年10月16日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Helping Johnny Make Sense of Privacy Policies with LLMs

Arxiv

0+阅读 · 1月28日

NOIR: Privacy-Preserving Generation of Code with Open-Source LLMs

Arxiv

0+阅读 · 1月22日

PrivTune: Efficient and Privacy-Preserving Fine-Tuning of Large Language Models via Device-Cloud Collaboration

Arxiv

0+阅读 · 1月21日

LADFA: A Framework of Using Large Language Models and Retrieval-Augmented Generation for Personal Data Flow Analysis in Privacy Policies

Arxiv

0+阅读 · 1月15日

Provable Secure Steganography Based on Adaptive Dynamic Sampling

Arxiv

0+阅读 · 1月10日

Smart Privacy Policy Assistant: An LLM-Powered System for Transparent and Actionable Privacy Notices

Arxiv

0+阅读 · 1月9日

Exploring Iterative Controllable Summarization with Large Language Models

Arxiv

0+阅读 · 1月7日

Value-Action Alignment in Large Language Models under Privacy-Prosocial Conflict

Arxiv

0+阅读 · 1月7日

PrivTune: Efficient and Privacy-Preserving Fine-Tuning of Large Language Models via Device-Cloud Collaboration

Arxiv

0+阅读 · 1月2日

PrivacyBench: A Conversational Benchmark for Evaluating Privacy in Personalized AI

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

6+阅读 · 7月24日

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

5+阅读 · 7月24日

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

3+阅读 · 7月24日

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

2+阅读 · 7月24日

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

2+阅读 · 7月24日

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

1+阅读 · 7月24日

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

5+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

11+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【CVPR2025】基于大语言模型的视频摘要生成

【CVPR2025】基于大语言模型的视频摘要生成

专知会员服务

12+阅读 · 2025年4月21日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

专知会员服务

26+阅读 · 2024年7月2日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

【Manning新书】隐私保护的机器学习，323页pdf

【Manning新书】隐私保护的机器学习，323页pdf

专知会员服务

56+阅读 · 2022年11月4日

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

AI时代生物隐私如何保护？马德里自治大学最新《生物特征识别中的隐私增强技术》综述，全面详述生物隐私增强技术

专知会员服务

21+阅读 · 2022年6月24日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

专知

13+阅读 · 2017年12月11日

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

【专知-Java Deeplearning4j深度学习教程05】无监督特征提取神器—AutoEncoder:图文+代码

专知

13+阅读 · 2017年10月16日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Helping Johnny Make Sense of Privacy Policies with LLMs

Arxiv

0+阅读 · 1月28日

NOIR: Privacy-Preserving Generation of Code with Open-Source LLMs

Arxiv

0+阅读 · 1月22日

PrivTune: Efficient and Privacy-Preserving Fine-Tuning of Large Language Models via Device-Cloud Collaboration

Arxiv

0+阅读 · 1月21日

LADFA: A Framework of Using Large Language Models and Retrieval-Augmented Generation for Personal Data Flow Analysis in Privacy Policies

Arxiv

0+阅读 · 1月15日

Provable Secure Steganography Based on Adaptive Dynamic Sampling

Arxiv

0+阅读 · 1月10日

Smart Privacy Policy Assistant: An LLM-Powered System for Transparent and Actionable Privacy Notices

Arxiv

0+阅读 · 1月9日

Exploring Iterative Controllable Summarization with Large Language Models

Arxiv

0+阅读 · 1月7日

Value-Action Alignment in Large Language Models under Privacy-Prosocial Conflict

Arxiv

0+阅读 · 1月7日

PrivTune: Efficient and Privacy-Preserving Fine-Tuning of Large Language Models via Device-Cloud Collaboration

Arxiv

0+阅读 · 1月2日

PrivacyBench: A Conversational Benchmark for Evaluating Privacy in Personalized AI

Arxiv

0+阅读 · 2025年12月31日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员