成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
越狱
关注
0
综合
百科
VIP
热门
动态
论文
精华
JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification
Arxiv
0+阅读 · 1月6日
E$^2$AT: Multimodal Jailbreak Defense via Dynamic Joint Optimization for Multimodal Large Language Models
Arxiv
0+阅读 · 1月6日
Beyond Prompts: Space-Time Decoupling Control-Plane Jailbreaks in LLM Structured Output
Arxiv
0+阅读 · 1月5日
Exploring Approaches for Detecting Memorization of Recommender System Data in Large Language Models
Arxiv
0+阅读 · 1月5日
RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation
Arxiv
0+阅读 · 1月4日
Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization
Arxiv
0+阅读 · 1月5日
Emoji-Based Jailbreaking of Large Language Models
Arxiv
0+阅读 · 1月2日
CEE: An Inference-Time Jailbreak Defense for Embodied Intelligence via Subspace Concept Rotation
Arxiv
0+阅读 · 1月5日
Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments
Arxiv
0+阅读 · 1月1日
Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak
Arxiv
0+阅读 · 1月1日
RAJ-PGA: Reasoning-Activated Jailbreak and Principle-Guided Alignment Framework for Large Reasoning Models
Arxiv
0+阅读 · 2025年12月30日
Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?
Arxiv
0+阅读 · 2025年12月30日
Effective and Efficient Jailbreaks of Black-Box LLMs with Cross-Behavior Attacks
Arxiv
0+阅读 · 2025年12月31日
EquaCode: A Multi-Strategy Jailbreak Approach for Large Language Models via Equation Solving and Code Completion
Arxiv
0+阅读 · 2025年12月29日
Involuntary Jailbreak: On Self-Prompting Attacks
Arxiv
0+阅读 · 2025年12月27日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top