越狱论文 - 专知

会员服务 ·

WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

Arxiv

0+阅读 · 3月19日

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Arxiv

0+阅读 · 4月8日

Cross-Lingual Jailbreak Detection via Semantic Codebooks

Arxiv

0+阅读 · 4月28日

Jailbreaking Generative AI: Multivector Phishing Threats and Transformer based Defenses

Arxiv

0+阅读 · 4月1日

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Arxiv

0+阅读 · 4月30日

Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks

Arxiv

0+阅读 · 4月20日

Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training

Arxiv

0+阅读 · 4月29日

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Arxiv

0+阅读 · 3月20日

Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models

Arxiv

0+阅读 · 4月27日

Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring

Arxiv

0+阅读 · 4月20日

Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models

Arxiv

0+阅读 · 4月7日

Dialect vs Demographics: Quantifying LLM Bias from Implicit Linguistic Signals vs. Explicit User Profiles

Arxiv

0+阅读 · 4月22日

Not All Tokens Are Created Equal: Query-Efficient Jailbreak Fuzzing for LLMs

Arxiv

0+阅读 · 3月24日

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

Arxiv

0+阅读 · 3月23日

The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems

Arxiv

0+阅读 · 4月13日

参考链接

微信扫码咨询专知VIP会员