鉴于深度学习模型在安全关键型应用中的广泛使用,确保这些模型的决策在面对对抗性利用时依然具备鲁棒性具有根本性的重要意义。本文将讨论在设计具备理想鲁棒性特性的算法方面的最新进展。首先,我们探讨计算机视觉中的对抗样本问题,并提出新的技术成果、训练范式以及认证算法。接下来,我们考虑领域泛化问题,其任务是训练神经网络能够从一组训练分布泛化到未见过的测试分布。我们提出的新算法在医学影像、分子识别和图像分类中实现了当前最先进的泛化性能。最后,我们研究大语言模型(LLMs)越狱(jailbreaking)的场景,即对抗性用户试图设计提示词以引导模型生成不当内容。我们提出了新的攻击与防御方法,这些方法代表了在设计鲁棒的语言类智能体方面的前沿进展。

成为VIP会员查看完整内容
16
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
3+阅读 · 4月18日
微信扫码咨询专知VIP会员