构建面向生产环境的Gemini探测模型 (Building Production-Ready Probes For Gemini) - 专知论文

会员服务 ·

0

上下文 · 分布偏移 · 长上下文 · Gemini · 构建 ·

Building Production-Ready Probes For Gemini

翻译：构建面向生产环境的Gemini探测模型

János Kramár,Joshua Engels,Zheng Wang,Bilal Chughtai,Rohin Shah,Neel Nanda,Arthur Conmy

from arxiv, v2 (minor typo fixes)

Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architectures that handle this long-context distribution shift. We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant distribution shifts, including multi-turn conversations, long context prompts, and adaptive red teaming. Our results demonstrate that while our novel architectures address context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes. These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.

翻译：前沿语言模型的能力正在迅速提升。因此，我们需要更强大的缓解措施来防止恶意行为者滥用日益强大的系统。先前研究表明，激活探测可能是一种有前景的滥用缓解技术，但我们发现一个关键挑战：探测模型在重要的生产环境分布偏移下泛化能力不足。特别地，我们发现从短上下文到长上下文的输入偏移对现有探测架构构成显著困难。我们提出了几种能够处理这种长上下文分布偏移的新型探测架构。我们在网络攻击领域评估这些探测模型，测试其针对多种生产相关分布偏移的鲁棒性，包括多轮对话、长上下文提示和自适应红队测试。结果表明，虽然我们的新型架构解决了上下文长度问题，但需要结合架构选择与多样化分布训练才能实现广泛泛化。此外，我们证明将探测模型与提示分类器结合，可凭借探测模型的计算效率以较低成本实现最优准确率。这些发现已成功指导了滥用缓解探测模型在Gemini（谷歌前沿语言模型）用户端实例中的部署。最后，我们利用AlphaEvolve在探测架构搜索和自适应红队测试自动化改进方面取得了初步积极成果，表明部分AI安全研究已具备自动化可能。

0

相关内容

上下文

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

21+阅读 · 3月5日

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

专知会员服务

37+阅读 · 2025年12月28日

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

专知会员服务

34+阅读 · 2024年10月25日

遥感基础模型发展综述与未来设想

遥感基础模型发展综述与未来设想

专知会员服务

20+阅读 · 2024年8月13日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

专知会员服务

49+阅读 · 2023年12月9日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

32+阅读 · 2023年5月14日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

社区分享｜如何让模型在生产环境上推理得更快

社区分享｜如何让模型在生产环境上推理得更快

TensorFlow

47+阅读 · 2020年2月19日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

专知

24+阅读 · 2018年1月2日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Arxiv

0+阅读 · 2月17日

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Arxiv

0+阅读 · 2月16日

World of Workflows: A Benchmark for Bringing World Models to Enterprise Systems

Arxiv

0+阅读 · 2月10日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study

Arxiv

0+阅读 · 2月8日

Forecasting Developer Environments with GenAI: A Research Perspective

Arxiv

0+阅读 · 2月7日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

World of Workflows: a Benchmark for Bringing World Models to Enterprise Systems

Arxiv

0+阅读 · 1月29日

SWE-Spot: Building Small Repo-Experts with Repository-Centric Learning

Arxiv

0+阅读 · 1月29日

Building Production-Ready Probes For Gemini

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

2+阅读 · 今天16:20

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

2+阅读 · 今天14:34

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

1+阅读 · 今天14:31

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

3+阅读 · 今天14:23

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

2+阅读 · 今天14:19

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

2+阅读 · 今天12:23

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

2+阅读 · 今天12:21

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

2+阅读 · 今天12:13

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

8+阅读 · 今天8:20

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

3+阅读 · 今天7:30

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

6+阅读 · 今天7:28

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

7+阅读 · 今天3:09

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

4+阅读 · 今天2:50

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

5+阅读 · 今天2:08

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

14+阅读 · 今天1:51

相关VIP内容

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

21+阅读 · 3月5日

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

25+阅读 · 1月18日

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

《运用人工智能进行战场感知、准备、建模与实施以探测任务线程》

专知会员服务

37+阅读 · 2025年12月28日

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

大模型如何用于遥感？最新《用于遥感与地球观测的基础模型》综述

专知会员服务

34+阅读 · 2024年10月25日

遥感基础模型发展综述与未来设想

遥感基础模型发展综述与未来设想

专知会员服务

20+阅读 · 2024年8月13日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

专知会员服务

49+阅读 · 2023年12月9日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

32+阅读 · 2023年5月14日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知会员服务

31+阅读 · 2022年10月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

美国与以色列如何在攻击伊朗中使用人工智能

《自动化战略情报管控》

相关资讯

社区分享｜如何让模型在生产环境上推理得更快

社区分享｜如何让模型在生产环境上推理得更快

TensorFlow

47+阅读 · 2020年2月19日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

【干货】让遥感图像活起来：遥感图像描述生成的模型与数据集探索

专知

24+阅读 · 2018年1月2日

相关论文

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Arxiv

0+阅读 · 2月17日

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Arxiv

0+阅读 · 2月16日

World of Workflows: A Benchmark for Bringing World Models to Enterprise Systems

Arxiv

0+阅读 · 2月10日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

How well are open sourced AI-generated image detection models out-of-the-box: A comprehensive benchmark study

Arxiv

0+阅读 · 2月8日

Forecasting Developer Environments with GenAI: A Research Perspective

Arxiv

0+阅读 · 2月7日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

World of Workflows: a Benchmark for Bringing World Models to Enterprise Systems

Arxiv

0+阅读 · 1月29日

SWE-Spot: Building Small Repo-Experts with Repository-Centric Learning

Arxiv

0+阅读 · 1月29日

Building Production-Ready Probes For Gemini

Arxiv

0+阅读 · 1月16日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员