成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
安全对齐
关注
0
综合
百科
VIP
热门
动态
论文
精华
Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
Arxiv
0+阅读 · 1月6日
Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation
Arxiv
0+阅读 · 1月5日
Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines
Arxiv
0+阅读 · 1月5日
Emoji-Based Jailbreaking of Large Language Models
Arxiv
0+阅读 · 1月2日
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models
Arxiv
0+阅读 · 1月1日
Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization
Arxiv
0+阅读 · 2025年12月12日
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning
Arxiv
0+阅读 · 2025年11月6日
Silenced Biases: The Dark Side LLMs Learned to Refuse
Arxiv
0+阅读 · 2025年11月16日
Silenced Biases: The Dark Side LLMs Learned to Refuse
Arxiv
0+阅读 · 2025年11月5日
UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases
Arxiv
0+阅读 · 2025年11月10日
Reimagining Safety Alignment with An Image
Arxiv
0+阅读 · 2025年11月1日
Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment
Arxiv
0+阅读 · 2025年11月24日
Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment
Arxiv
0+阅读 · 2025年11月17日
Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment
Arxiv
0+阅读 · 2025年11月11日
Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment
Arxiv
0+阅读 · 2025年11月10日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top