安全对齐论文 - 专知

会员服务 ·

安全对齐

AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal Anchor

Arxiv

0+阅读 · 6月16日

Pulling The REINS: Training-Free Safety Alignment of Video Diffusion Models via Representation Steering

Arxiv

0+阅读 · 6月15日

Greed Is Learned: Visible Incentives as Reward-Hacking Triggers

Arxiv

0+阅读 · 6月15日

DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment

Arxiv

0+阅读 · 6月14日

Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs

Arxiv

0+阅读 · 5月30日

SARSteer: Safeguarding Large Audio-Language Models via Safe-Ablated Refusal Steering

Arxiv

0+阅读 · 6月12日

SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech

Arxiv

0+阅读 · 6月8日

FreoStream:Enhancing Stream Guardrails via Future-Aware Reasoning and Safety-Aligned Optimization

Arxiv

0+阅读 · 6月11日

When Autoregressive Consistency Hurts Safety Alignment

Arxiv

0+阅读 · 6月2日

Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4

Arxiv

0+阅读 · 6月3日

Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4

Arxiv

0+阅读 · 4月21日

Silenced Biases: The Dark Side LLMs Learned to Refuse

Arxiv

0+阅读 · 3月18日

SafeMath: Inference-time Safety improves Math Accuracy

Arxiv

0+阅读 · 3月26日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training

Arxiv

0+阅读 · 4月29日

参考链接

微信扫码咨询专知VIP会员