鉴于深度学习模型在安全关键型应用中的广泛使用,确保这些模型的决策在面对对抗性利用时依然具备鲁棒性具有根本性的重要意义。本文将讨论在设计具备理想鲁棒性特性的算法方面的最新进展。首先,我们探讨计算机视觉中的对抗样本问题,并提出新的技术成果、训练范式以及认证算法。接下来,我们考虑领域泛化问题,其任务是训练神经网络能够从一组训练分布泛化到未见过的测试分布。我们提出的新算法在医学影像、分子识别和图像分类中实现了当前最先进的泛化性能。最后,我们研究大语言模型(LLMs)越狱(jailbreaking)的场景,即对抗性用户试图设计提示词以引导模型生成不当内容。我们提出了新的攻击与防御方法,这些方法代表了在设计鲁棒的语言类智能体方面的前沿进展。

成为VIP会员查看完整内容
16
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
5+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
微信扫码咨询专知VIP会员