成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
越狱攻击
关注
0
综合
百科
VIP
热门
动态
论文
精华
JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification
Arxiv
0+阅读 · 1月6日
Emoji-Based Jailbreaking of Large Language Models
Arxiv
0+阅读 · 1月2日
Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
Arxiv
0+阅读 · 2025年12月30日
AdvPrefix: An Objective for Nuanced LLM Jailbreaks
Arxiv
0+阅读 · 2025年12月27日
X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability
Arxiv
0+阅读 · 2025年12月26日
Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs
Arxiv
0+阅读 · 2025年12月22日
Simulated Ensemble Attack: Transferring Jailbreaks Across Fine-tuned Vision-Language Models
Arxiv
0+阅读 · 2025年12月23日
Bleeding Pathways: Vanishing Discriminability in LLM Hidden States Fuels Jailbreak Attacks
Arxiv
0+阅读 · 2025年12月22日
Evolving Security in LLMs: A Study of Jailbreak Attacks and Defenses
Arxiv
0+阅读 · 2025年12月24日
DefenSee: Dissecting Threat from Sight and Text - A Multi-View Defensive Pipeline for Multi-modal Jailbreaks
Arxiv
0+阅读 · 2025年12月1日
Immunity memory-based jailbreak detection: multi-agent adaptive guard for large language models
Arxiv
0+阅读 · 2025年12月3日
Jailbreaking in the Haystack
Arxiv
0+阅读 · 2025年11月5日
"To Survive, I Must Defect": Jailbreaking LLMs via the Game-Theory Scenarios
Arxiv
0+阅读 · 2025年11月20日
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models
Arxiv
0+阅读 · 2025年11月25日
Practical and Stealthy Touch-Guided Jailbreak Attacks on Deployed Mobile Vision-Language Agents
Arxiv
0+阅读 · 2025年11月20日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top