鉴于深度学习模型在安全关键型应用中的广泛使用,确保这些模型的决策在面对对抗性利用时依然具备鲁棒性具有根本性的重要意义。本文将讨论在设计具备理想鲁棒性特性的算法方面的最新进展。首先,我们探讨计算机视觉中的对抗样本问题,并提出新的技术成果、训练范式以及认证算法。接下来,我们考虑领域泛化问题,其任务是训练神经网络能够从一组训练分布泛化到未见过的测试分布。我们提出的新算法在医学影像、分子识别和图像分类中实现了当前最先进的泛化性能。最后,我们研究大语言模型(LLMs)越狱(jailbreaking)的场景,即对抗性用户试图设计提示词以引导模型生成不当内容。我们提出了新的攻击与防御方法,这些方法代表了在设计鲁棒的语言类智能体方面的前沿进展。

成为VIP会员查看完整内容
16
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
0+阅读 · 52分钟前
《美陆军最新条令:兵力防护》
专知会员服务
1+阅读 · 今天14:43
《人工智能的挑战:算法战的想象与现实》
专知会员服务
1+阅读 · 今天14:26
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
2+阅读 · 今天14:12
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
17+阅读 · 6月2日
微信扫码咨询专知VIP会员