The Silent Spill: Measuring Sensitive Data Leaks Across Public URL Repositories - 专知论文

会员服务 ·

0

URL · 潜在 · 识别 · 存储 · 数据泄露 ·

The Silent Spill: Measuring Sensitive Data Leaks Across Public URL Repositories

翻译：静默泄露：测量公共URL存储库中的敏感数据泄露

Tarek Ramadan,AbdelRahman Abdou,Mohammad Mannan,Amr Youssef

A large number of URLs are made public by various platforms for security analysis, archiving, and paste sharing -- such as VirusTotal, URLScan.io, Hybrid Analysis, the Wayback Machine, and RedHunt. These services may unintentionally expose links containing sensitive information, as reported in some news articles and blog posts. However, no large-scale measurement has quantified the extent of such exposures. We present an automated system that detects and analyzes potential sensitive information leaked through publicly accessible URLs. The system combines lexical URL filtering, dynamic rendering, OCR-based extraction, and content classification to identify potential leaks. We apply it to 6,094,475 URLs collected from public scanning platforms, paste sites, and web archives, identifying 12,331 potential exposures across authentication, financial, personal, and document-related domains. These findings show that sensitive information remains exposed, underscoring the importance of automated detection to identify accidental leaks.

翻译：大量URL被各类平台公开用于安全分析、归档和粘贴共享——例如VirusTotal、URLScan.io、Hybrid Analysis、Wayback Machine和RedHunt。正如某些新闻报道和博客文章所述，这些服务可能无意中暴露包含敏感信息的链接。然而，目前尚无大规模测量研究量化此类暴露的程度。我们提出了一种自动化系统，用于检测和分析通过公开访问URL泄露的潜在敏感信息。该系统结合了词汇URL过滤、动态渲染、基于OCR的提取和内容分类技术来识别潜在泄露。我们将其应用于从公共扫描平台、粘贴站点和网络档案中收集的6,094,475个URL，在身份验证、金融、个人和文档相关领域识别出12,331个潜在暴露案例。这些发现表明敏感信息仍处于暴露状态，凸显了通过自动化检测识别意外泄露的重要性。

0

相关内容

URL

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

专知会员服务

23+阅读 · 2024年6月3日

《使用静态污点分析检测恶意代码》CMU最新30页slides

《使用静态污点分析检测恶意代码》CMU最新30页slides

专知会员服务

21+阅读 · 2023年10月11日

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

专知会员服务

27+阅读 · 2022年10月7日

2022《数据安全治理白皮书 4.0》，219页pdf，中关村网络安全与信息化产业联盟数据安全治理专业委员会发布

2022《数据安全治理白皮书 4.0》，219页pdf，中关村网络安全与信息化产业联盟数据安全治理专业委员会发布

专知会员服务

65+阅读 · 2022年5月31日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

27+阅读 · 2022年4月26日

【UAI2021最佳论文】利用Fisher信息测量机器学习模型中的数据泄漏

专知会员服务

17+阅读 · 2021年8月5日

埃默里大学最新「大数据时代事件预测」综述论文，37页pdf

埃默里大学最新「大数据时代事件预测」综述论文，37页pdf

专知会员服务

29+阅读 · 2021年7月20日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

Web渗透测试Fuzz字典分享

Web渗透测试Fuzz字典分享

黑白之道

21+阅读 · 2019年5月22日

20个安全可靠的免费数据源，各领域数据任你挑

20个安全可靠的免费数据源，各领域数据任你挑

机器学习算法与Python学习

13+阅读 · 2019年5月9日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

如何访问"暗网"（慎入）

如何访问"暗网"（慎入）

黑白之道

145+阅读 · 2018年6月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于差分隐私保护模型的交互式社交网络分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

Informationally Compressive Anonymization: Non-Degrading Sensitive Input Protection for Privacy-Preserving Supervised Machine Learning

Arxiv

0+阅读 · 3月16日

Towards Contextual Sensitive Data Detection

Arxiv

0+阅读 · 3月12日

Silent Subversion: Sensor Spoofing Attacks via Supply Chain Implants in Satellite Systems

Arxiv

0+阅读 · 3月11日

CodeCureAgent: Automatic Classification and Repair of Static Analysis Warnings

Arxiv

0+阅读 · 2月25日

Many Tools, Few Exploitable Vulnerabilities: A Survey of 246 Static Code Analyzers for Security

Arxiv

0+阅读 · 2月20日

IssueGuard: Real-Time Secret Leak Prevention Tool for GitHub Issue Reports

Arxiv

0+阅读 · 2月8日

DataCrumb: A Physical Probe for Reflections on Background Web Tracking

Arxiv

0+阅读 · 2月5日

SynAT: Enhancing Security Knowledge Bases via Automatic Synthesizing Attack Tree from Crowd Discussions

Arxiv

0+阅读 · 2月5日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

0+阅读 · 今天15:39

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

4+阅读 · 今天11:17

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

3+阅读 · 今天11:09

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

4+阅读 · 今天4:55

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

5+阅读 · 今天4:33

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 今天4:29

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

6+阅读 · 今天4:27

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

16+阅读 · 今天4:20

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 今天2:39

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

10+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

16+阅读 · 4月28日

相关VIP内容

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

专知会员服务

23+阅读 · 2024年6月3日

《使用静态污点分析检测恶意代码》CMU最新30页slides

《使用静态污点分析检测恶意代码》CMU最新30页slides

专知会员服务

21+阅读 · 2023年10月11日

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

专知会员服务

27+阅读 · 2022年10月7日

2022《数据安全治理白皮书 4.0》，219页pdf，中关村网络安全与信息化产业联盟数据安全治理专业委员会发布

2022《数据安全治理白皮书 4.0》，219页pdf，中关村网络安全与信息化产业联盟数据安全治理专业委员会发布

专知会员服务

65+阅读 · 2022年5月31日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

27+阅读 · 2022年4月26日

【UAI2021最佳论文】利用Fisher信息测量机器学习模型中的数据泄漏

专知会员服务

17+阅读 · 2021年8月5日

埃默里大学最新「大数据时代事件预测」综述论文，37页pdf

埃默里大学最新「大数据时代事件预测」综述论文，37页pdf

专知会员服务

29+阅读 · 2021年7月20日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

相关资讯

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

Web渗透测试Fuzz字典分享

Web渗透测试Fuzz字典分享

黑白之道

21+阅读 · 2019年5月22日

20个安全可靠的免费数据源，各领域数据任你挑

20个安全可靠的免费数据源，各领域数据任你挑

机器学习算法与Python学习

13+阅读 · 2019年5月9日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

被动DNS，一个被忽视的安全利器

被动DNS，一个被忽视的安全利器

运维帮

11+阅读 · 2019年3月8日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

如何访问"暗网"（慎入）

如何访问"暗网"（慎入）

黑白之道

145+阅读 · 2018年6月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

Informationally Compressive Anonymization: Non-Degrading Sensitive Input Protection for Privacy-Preserving Supervised Machine Learning

Arxiv

0+阅读 · 3月16日

Towards Contextual Sensitive Data Detection

Arxiv

0+阅读 · 3月12日

Silent Subversion: Sensor Spoofing Attacks via Supply Chain Implants in Satellite Systems

Arxiv

0+阅读 · 3月11日

CodeCureAgent: Automatic Classification and Repair of Static Analysis Warnings

Arxiv

0+阅读 · 2月25日

Many Tools, Few Exploitable Vulnerabilities: A Survey of 246 Static Code Analyzers for Security

Arxiv

0+阅读 · 2月20日

IssueGuard: Real-Time Secret Leak Prevention Tool for GitHub Issue Reports

Arxiv

0+阅读 · 2月8日

DataCrumb: A Physical Probe for Reflections on Background Web Tracking

Arxiv

0+阅读 · 2月5日

SynAT: Enhancing Security Knowledge Bases via Automatic Synthesizing Attack Tree from Crowd Discussions

Arxiv

0+阅读 · 2月5日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

Putting Privacy to the Test: Introducing Red Teaming for Research Data Anonymization

Arxiv

0+阅读 · 1月30日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于差分隐私保护模型的交互式社交网络分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员