成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
越狱
关注
0
综合
百科
VIP
热门
动态
论文
精华
Fail-Closed Alignment for Large Language Models
Arxiv
0+阅读 · 2月19日
The Vulnerability of LLM Rankers to Prompt Injection Attacks
Arxiv
0+阅读 · 2月18日
Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
Arxiv
0+阅读 · 2月19日
Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs
Arxiv
0+阅读 · 2月18日
The Trojan Example: Jailbreaking LLMs through Template Filling and Unsafety Reasoning
Arxiv
0+阅读 · 2月18日
Boundary Point Jailbreaking of Black-Box LLMs
Arxiv
0+阅读 · 2月18日
Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents
Arxiv
0+阅读 · 2月18日
Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
Arxiv
0+阅读 · 2月18日
Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing
Arxiv
0+阅读 · 2月9日
TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking
Arxiv
0+阅读 · 2月6日
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks
Arxiv
0+阅读 · 2月16日
Causal Front-Door Adjustment for Robust Jailbreak Attacks on LLMs
Arxiv
0+阅读 · 2月6日
Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models
Arxiv
0+阅读 · 2月12日
SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks
Arxiv
0+阅读 · 2月7日
Multi-Turn Adaptive Prompting Attack on Large Vision-Language Models
Arxiv
0+阅读 · 2月16日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top