Building Production-Ready Probes For Gemini - 专知论文

会员服务 ·

0

探针 · 上下文 · Gemini · 构建 · 泛化 ·

Building Production-Ready Probes For Gemini

翻译：构建适用于Gemini的生产级探针

János Kramár,Joshua Engels,Zheng Wang,Bilal Chughtai,Rohin Shah,Neel Nanda,Arthur Conmy

Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift. We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes. These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.

翻译：前沿语言模型的能力正在快速提升。因此，我们需要更强大的缓解措施来防止恶意行为者滥用日益强大的系统。先前的研究表明，激活探针可能是一种有前景的滥用缓解技术，但我们发现一个关键挑战依然存在：探针在重要的生产环境分布偏移下泛化能力不足。具体而言，我们发现从短上下文输入到长上下文输入的转变对于现有探针架构而言尤为困难。我们提出了几种能够处理这种长上下文分布偏移的新探针架构。我们在网络攻击领域评估了这些探针，测试了它们针对多种生产相关偏移的鲁棒性，包括多轮对话、静态越狱和自适应红队测试。我们的结果表明，虽然multimax方法解决了上下文长度问题，但要实现广泛的泛化，需要结合架构选择和在多样化分布上的训练。此外，我们证明，将探针与提示分类器结合使用，由于探针的计算效率高，能以较低成本实现最优准确率。这些发现已成功指导了滥用缓解探针在Gemini（谷歌的前沿语言模型）面向用户的实例中的部署。最后，我们利用AlphaEvolve在探针架构搜索和自适应红队测试自动化改进方面取得了初步积极成果，这表明部分人工智能安全研究的自动化已成为可能。

0

相关内容

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

了解对手：利用人工智能创建数字敌方指挥官

了解对手：利用人工智能创建数字敌方指挥官

专知会员服务

31+阅读 · 1月18日

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

专知会员服务

37+阅读 · 2025年12月28日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

32+阅读 · 2023年5月14日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

30+阅读 · 2023年2月17日

《人工智能应用于网络建模》【译文】2022最新报告，北约科学与技术组织（STO）

《人工智能应用于网络建模》【译文】2022最新报告，北约科学与技术组织（STO）

专知会员服务

44+阅读 · 2022年10月15日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

66+阅读 · 2022年4月14日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

社区分享｜如何让模型在生产环境上推理得更快

社区分享｜如何让模型在生产环境上推理得更快

TensorFlow

47+阅读 · 2020年2月19日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于贵金属纳米簇的受激发射损耗超分辨显微镜荧光探针的设计和成像

国家自然科学基金

0+阅读 · 2015年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

可控制备的纳米级钨针尖应用于表面缺陷的扫描隧道显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

生物友好型磁光多功能纳米探针的制备、调控及生物检测

国家自然科学基金

0+阅读 · 2015年12月31日

一种新型生物金属纳米簇探针的构建及其检测方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脉冲机动可达域的小行星探测器二维发射窗口研究

国家自然科学基金

0+阅读 · 2015年12月31日

诊断金属表面微喷微层裂状态的新型光电探针测试技术

国家自然科学基金

0+阅读 · 2015年12月31日

“量身定制”的血红素类分子探针的设计与应用

国家自然科学基金

0+阅读 · 2015年12月31日

Image Generation with a Sphere Encoder

Arxiv

0+阅读 · 2月16日

Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

Arxiv

0+阅读 · 2月16日

Towards Production-Worthy Simulation for Autonomous Cyber Operations

Arxiv

0+阅读 · 2月13日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Arxiv

0+阅读 · 2月3日

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Arxiv

0+阅读 · 2月3日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering

Arxiv

0+阅读 · 1月29日

Building Production-Ready Probes For Gemini

Arxiv

0+阅读 · 1月19日

Detecting High-Stakes Interactions with Activation Probes

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

了解对手：利用人工智能创建数字敌方指挥官

了解对手：利用人工智能创建数字敌方指挥官

专知会员服务

31+阅读 · 1月18日

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

专知会员服务

37+阅读 · 2025年12月28日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

32+阅读 · 2023年5月14日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

30+阅读 · 2023年2月17日

《人工智能应用于网络建模》【译文】2022最新报告，北约科学与技术组织（STO）

《人工智能应用于网络建模》【译文】2022最新报告，北约科学与技术组织（STO）

专知会员服务

44+阅读 · 2022年10月15日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

66+阅读 · 2022年4月14日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

社区分享｜如何让模型在生产环境上推理得更快

社区分享｜如何让模型在生产环境上推理得更快

TensorFlow

47+阅读 · 2020年2月19日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Image Generation with a Sphere Encoder

Arxiv

0+阅读 · 2月16日

Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

Arxiv

0+阅读 · 2月16日

Towards Production-Worthy Simulation for Autonomous Cyber Operations

Arxiv

0+阅读 · 2月13日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Arxiv

0+阅读 · 2月3日

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Arxiv

0+阅读 · 2月3日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering

Arxiv

0+阅读 · 1月29日

Building Production-Ready Probes For Gemini

Arxiv

0+阅读 · 1月19日

Detecting High-Stakes Interactions with Activation Probes

Arxiv

0+阅读 · 1月13日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于贵金属纳米簇的受激发射损耗超分辨显微镜荧光探针的设计和成像

国家自然科学基金

0+阅读 · 2015年12月31日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

可控制备的纳米级钨针尖应用于表面缺陷的扫描隧道显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

生物友好型磁光多功能纳米探针的制备、调控及生物检测

国家自然科学基金

0+阅读 · 2015年12月31日

一种新型生物金属纳米簇探针的构建及其检测方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脉冲机动可达域的小行星探测器二维发射窗口研究

国家自然科学基金

0+阅读 · 2015年12月31日

诊断金属表面微喷微层裂状态的新型光电探针测试技术

国家自然科学基金

0+阅读 · 2015年12月31日

“量身定制”的血红素类分子探针的设计与应用

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员