成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
越狱
关注
0
综合
百科
VIP
热门
动态
论文
精华
WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference
Arxiv
0+阅读 · 3月19日
PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking
Arxiv
0+阅读 · 4月8日
Cross-Lingual Jailbreak Detection via Semantic Codebooks
Arxiv
0+阅读 · 4月28日
Jailbreaking Generative AI: Multivector Phishing Threats and Transformer based Defenses
Arxiv
0+阅读 · 4月1日
TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning
Arxiv
0+阅读 · 4月30日
Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks
Arxiv
0+阅读 · 4月20日
Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training
Arxiv
0+阅读 · 4月29日
Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models
Arxiv
0+阅读 · 3月20日
Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models
Arxiv
0+阅读 · 4月27日
Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring
Arxiv
0+阅读 · 4月20日
Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models
Arxiv
0+阅读 · 4月7日
Dialect vs Demographics: Quantifying LLM Bias from Implicit Linguistic Signals vs. Explicit User Profiles
Arxiv
0+阅读 · 4月22日
Not All Tokens Are Created Equal: Query-Efficient Jailbreak Fuzzing for LLMs
Arxiv
0+阅读 · 3月24日
Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models
Arxiv
0+阅读 · 3月23日
The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems
Arxiv
0+阅读 · 4月13日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top