Computer use agents create new privacy risks: training data collected from real websites inevitably contains sensitive information, and cloud-hosted inference exposes user screenshots. Detecting personally identifiable information in web screenshots is critical for privacy-preserving deployment, but no public benchmark exists for this task. We introduce WebPII, a fine-grained synthetic benchmark of 44,865 annotated e-commerce UI images designed with three key properties: extended PII taxonomy including transaction-level identifiers that enable reidentification, anticipatory detection for partially-filled forms where users are actively entering data, and scalable generation through VLM-based UI reproduction. Experiments validate that these design choices improve layout-invariant detection across diverse interfaces and generalization to held-out page types. We train WebRedact to demonstrate practical utility, more than doubling text-extraction baseline accuracy (0.753 vs 0.357 mAP@50) at real-time CPU latency (20ms). We release the dataset and model to support privacy-preserving computer use research.


翻译:计算机使用代理带来了新的隐私风险:从真实网站收集的训练数据不可避免地包含敏感信息,而云端托管的推理过程会暴露用户截图。检测网页截图中的个人身份信息对于隐私保护部署至关重要,但目前该任务缺乏公开基准。我们提出了WebPII,这是一个包含44,865张带标注电子商务UI图像的细粒度合成基准数据集,其设计具有三个关键特性:扩展的PII分类体系(包含可实现再识别的交易级标识符)、针对用户正在填写数据的部分填充表单的预见性检测,以及通过基于VLM的UI复现实现的可扩展生成。实验验证表明,这些设计选择提升了跨多样界面的布局无关检测能力以及对未见过页面类型的泛化性能。我们训练了WebRedact模型以展示其实用价值,在实时CPU延迟(20毫秒)下,其文本提取基线准确率提升超过一倍(mAP@50达到0.753,基线为0.357)。我们公开数据集与模型,以支持隐私保护的计算机使用研究。

0
下载
关闭预览

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
图数据上的隐私攻击与防御技术
专知会员服务
28+阅读 · 2022年4月28日
《隐私计算白皮书(2021年)》正式发布(附下载链接)
专知会员服务
96+阅读 · 2021年7月22日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
Webkiller 简单利用
黑白之道
11+阅读 · 2019年6月11日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《人工智能时代的国防工业政策》
专知会员服务
3+阅读 · 今天2:39
《2026年美国/以色列-伊朗冲突》
专知会员服务
5+阅读 · 今天1:30
《美国与伊朗的冲突》美国会服务处报告
专知会员服务
5+阅读 · 今天1:27
美国对伊朗军事行动:弹药与反导
专知会员服务
5+阅读 · 今天1:25
超越技术:伊朗冲突中的“战争方式”
专知会员服务
12+阅读 · 4月1日
军事决策大语言模型综合评价基准
专知会员服务
10+阅读 · 4月1日
《美军混合航空器军用适航认证路线图》84页
专知会员服务
7+阅读 · 4月1日
相关VIP内容
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
图数据上的隐私攻击与防御技术
专知会员服务
28+阅读 · 2022年4月28日
《隐私计算白皮书(2021年)》正式发布(附下载链接)
专知会员服务
96+阅读 · 2021年7月22日
相关资讯
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
Webkiller 简单利用
黑白之道
11+阅读 · 2019年6月11日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员