As LLMs gain persuasive agentic capabilities through extended dialogues, they introduce novel risks in multi-turn conversational scams that single-turn safety evaluations fail to capture. We systematically study these risks using a controlled LLM-to-LLM simulation framework across multi-turn scam scenarios. Evaluating eight state-of-the-art models in English and Chinese, we analyze dialogue outcomes and qualitatively annotate attacker strategies, defensive responses, and failure modes. Results reveal that scam interactions follow recurrent escalation patterns, while defenses employ verification and delay mechanisms. Furthermore, interactional failures frequently stem from safety guardrail activation and role instability. Our findings highlight multi-turn interactional safety as a critical, distinct dimension of LLM behavior.


翻译:随着LLM通过扩展对话获得说服性代理能力,它们引入了单轮安全评估无法捕捉的多轮对话诈骗新风险。我们使用受控的LLM到LLM仿真框架,在多轮诈骗场景中系统研究这些风险。通过评估八个最先进的英文和中文模型,我们分析对话结果并定性标注攻击者策略、防御响应及失效模式。结果显示诈骗交互遵循重复的升级模式,而防御机制采用验证与延迟策略。此外,交互失效常源于安全护栏激活与角色不稳定性。我们的研究强调多轮交互安全是LLM行为中一个关键且独特的维度。

0
下载
关闭预览

相关内容

【AAAI2026】无限叙事:免训练的角色一致性文生图技术
专知会员服务
8+阅读 · 2025年11月18日
【2022新书】Python数据分析第三版,579页pdf
专知
19+阅读 · 2022年8月31日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员