Large language models (LLMs) are widely used to fulfill users' information needs; users ask LLMs about the weather, pose educational questions, and consult them for legal assistance. One particularly understudied area is digital security and privacy (S&P), where users may seek LLMs' help on how to secure their online accounts or protect their computers from cyber attacks. To the best of our knowledge, no prior study has collected or analyzed the S&P questions users ask LLMs; prior research on LLM response quality relied on expert-authored S&P misconceptions or FAQs rather than user queries. Drawing from WildChat, a dataset of 3.2M user-LLM conversations collected in the wild, our study identifies 14,727 S&P prompts and categorizes them into nine categories covering a wide range of S&P topics. From the S&P prompts, we sampled 450 and performed a thematic analysis to characterize the S&P questions users ask LLMs. Separate from the thematic analysis, we curated 270 advice-seeking S&P prompts, where users ask for recommendations, guidance, or specific S&P information. We measured LLM response quality and consistency when posing the prompt to LLMs 10 times. We found that commercial LLMs outperform open-weight models (GPT 5.5 provided "good enough" responses on 98% of prompts; Llama 4 on 47%). However, among prompts that received high-quality responses on average, commercial models sometimes produce contradictory responses across runs, risking confusing or misleading users.


翻译:大语言模型(LLMs)被广泛用于满足用户的信息需求;用户向LLMs询问天气、提出教育问题、寻求法律咨询等。其中一个特别研究不足的领域是数字安全与隐私(S&P),用户可能在此领域寻求LLMs的帮助,例如如何保护在线账户或保护计算机免受网络攻击。据我们所知,尚无先例研究收集或分析用户向LLMs提出的S&P问题;先前关于LLM响应质量的研究依赖于专家撰写的S&P误解或常见问题解答,而非用户真实查询。基于WildChat(一个在现实环境中收集的包含320万用户-LLM对话的数据集),我们的研究识别出14,727条S&P提示,并将其分类为涵盖广泛S&P主题的九个类别。从这些S&P提示中,我们抽样了450条,并进行了主题分析,以刻画用户向LLMs提出的S&P问题特征。与主题分析并行,我们还整理了270条寻求建议的S&P提示,其中用户请求建议、指导或特定的S&P信息。我们通过将同一提示多次(10次)提交给LLMs,衡量了LLM的响应质量与一致性。结果发现,商业LLMs优于开放权重模型(GPT 5.5在98%的提示上提供了“足够好”的响应;Llama 4为47%)。然而,在平均获得高质量响应的提示中,商业模型有时在不同运行中产生矛盾的响应,存在误导用户的潜在风险。

0
下载
关闭预览

相关内容

S&P:IEEE Symposium on Security and Privacy。 Explanation:IEEE安全与隐私研讨会。 Publisher:IEEE。 SIT: http://dblp.uni-trier.de/db/conf/sp/
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
大数据安全技术浅析
计算机与网络安全
15+阅读 · 2019年4月24日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
手把手丨用TensorFlow开发问答系统
大数据文摘
21+阅读 · 2017年11月29日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员