Web measurements are a well-established methodology for assessing the security and privacy landscape of the Internet. However, existing top lists of popular websites are unlabeled and lack semantic information about the nature of the included websites, making targeted web measurements challenging, as researchers often rely on ad-hoc techniques to bias datasets toward specific website classes of interest. In this paper, we investigate the use of Large Language Models (LLMs) to enable targeted web measurement studies. Building on prior literature, we identify key website classification tasks relevant to web measurements and highlight limitations in state-of-the-art classification approaches. We construct carefully curated datasets to evaluate different LLMs on these tasks. Our results show that LLMs can achieve strong performance across multiple classification scenarios, but the choice of model and configuration plays a significant role. Motivated by the observed trade-off between classification accuracy and computational efficiency, we propose a practical two-step methodology for scalable targeted web measurements starting from the Tranco list. Finally, we conduct LLM-assisted web measurement studies inspired by prior work using our methodology and assess the validity of the resulting research inferences, showing that LLMs can effectively enable targeted measurements of security and privacy trends on the Web.


翻译:暂无翻译

0
下载
关闭预览

相关内容

中文版 | 网络态势感知标准建立分析
专知会员服务
12+阅读 · 2025年5月26日
数据安全市场研究报告(附报告),93页ppt
专知会员服务
57+阅读 · 2022年11月3日
Web3.0前瞻研究报告(2022年),56页pdf
专知会员服务
98+阅读 · 2022年9月25日
中国网络安全产业白皮书,53页pdf
专知会员服务
79+阅读 · 2022年1月28日
5G网络安全标准化白皮书, 53页pdf
专知会员服务
68+阅读 · 2021年5月15日
专知会员服务
56+阅读 · 2020年12月28日
专知会员服务
14+阅读 · 2020年12月17日
【2020新书】Web应用安全,331页pdf
专知会员服务
25+阅读 · 2020年10月24日
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
微信小程序支持webP的WebAssembly方案
前端之巅
19+阅读 · 2019年8月14日
我所了解的物联网设备测试方法(硬件篇)
FreeBuf
12+阅读 · 2019年2月12日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
Network Embedding 指南
专知
22+阅读 · 2018年8月13日
深度学习应用于网络空间安全所面临的十大问题与机遇
计算机研究与发展
22+阅读 · 2018年6月7日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
深入理解LSTM网络
深度学习
17+阅读 · 2017年6月7日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
7+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
12+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
6+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
中文版 | 网络态势感知标准建立分析
专知会员服务
12+阅读 · 2025年5月26日
数据安全市场研究报告(附报告),93页ppt
专知会员服务
57+阅读 · 2022年11月3日
Web3.0前瞻研究报告(2022年),56页pdf
专知会员服务
98+阅读 · 2022年9月25日
中国网络安全产业白皮书,53页pdf
专知会员服务
79+阅读 · 2022年1月28日
5G网络安全标准化白皮书, 53页pdf
专知会员服务
68+阅读 · 2021年5月15日
专知会员服务
56+阅读 · 2020年12月28日
专知会员服务
14+阅读 · 2020年12月17日
【2020新书】Web应用安全,331页pdf
专知会员服务
25+阅读 · 2020年10月24日
相关资讯
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
微信小程序支持webP的WebAssembly方案
前端之巅
19+阅读 · 2019年8月14日
我所了解的物联网设备测试方法(硬件篇)
FreeBuf
12+阅读 · 2019年2月12日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
Network Embedding 指南
专知
22+阅读 · 2018年8月13日
深度学习应用于网络空间安全所面临的十大问题与机遇
计算机研究与发展
22+阅读 · 2018年6月7日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
深入理解LSTM网络
深度学习
17+阅读 · 2017年6月7日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员