红队测试大型推理模型 (Red Teaming Large Reasoning Models) - 专知论文

会员服务 ·

0

大型推理模型 · 推理模型 · 思维链 · CoT · 透明度 ·

Red Teaming Large Reasoning Models

翻译：红队测试大型推理模型

Jiawei Chen,Yang Yang,Chao Yu,Yu Tian,Zhi Cao,Linghao Li,Hang Su,Zhaoxia Yin

from arxiv, 30 pages, 9 figures

Large Reasoning Models (LRMs) have emerged as a powerful advancement in multi-step reasoning tasks, offering enhanced transparency and logical consistency through explicit chains of thought (CoT). However, these models introduce novel safety and reliability risks, such as CoT-hijacking and prompt-induced inefficiencies, which are not fully captured by existing evaluation methods. To address this gap, we propose RT-LRM, a unified benchmark designed to assess the trustworthiness of LRMs. RT-LRM evaluates three core dimensions: truthfulness, safety and efficiency. Beyond metric-based evaluation, we further introduce the training paradigm as a key analytical perspective to investigate the systematic impact of different training strategies on model trustworthiness. We achieve this by designing a curated suite of 30 reasoning tasks from an observational standpoint. We conduct extensive experiments on 26 models and identify several valuable insights into the trustworthiness of LRMs. For example, LRMs generally face trustworthiness challenges and tend to be more fragile than Large Language Models (LLMs) when encountering reasoning-induced risks. These findings uncover previously underexplored vulnerabilities and highlight the need for more targeted evaluations. In addition, we release a scalable toolbox for standardized trustworthiness research to support future advancements in this important field. Our code and datasets will be open-sourced.

翻译：大型推理模型（LRMs）已成为多步推理任务领域的重要进展，通过显式的思维链（CoT）机制提供了更高的透明度和逻辑一致性。然而，这些模型也引入了新的安全性与可靠性风险，例如思维链劫持和提示诱导的低效问题，这些风险尚未被现有评估方法充分涵盖。为填补这一空白，我们提出了RT-LRM——一个用于评估LRMs可信度的统一基准框架。RT-LRM从三个核心维度进行评估：真实性、安全性和效率性。除基于指标的评估外，我们进一步引入训练范式作为关键分析视角，以探究不同训练策略对模型可信度的系统性影响。为此，我们从观测视角设计了一套包含30个推理任务的精选测试集。通过对26个模型开展大量实验，我们获得了关于LRMs可信度的多项重要发现。例如，LRMs普遍面临可信度挑战，且在遭遇推理诱发风险时往往比大型语言模型（LLMs）更为脆弱。这些发现揭示了以往未被充分探索的脆弱性，并凸显了开展更具针对性评估的必要性。此外，我们发布了可扩展的标准化可信度研究工具箱，以支持这一重要领域的后续发展。我们的代码与数据集将进行开源。

0

相关内容

大型推理模型

大型推理模型

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

专知会员服务

17+阅读 · 1月29日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

别想太多：高效 R1 风格大型推理模型综述

别想太多：高效 R1 风格大型推理模型综述

专知会员服务

23+阅读 · 2025年8月5日

大模型推理的天花板在哪里？

大模型推理的天花板在哪里？

专知会员服务

15+阅读 · 2025年6月12日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

小型推理模型简要综述：训练、推理、应用与研究方向

小型推理模型简要综述：训练、推理、应用与研究方向

专知会员服务

42+阅读 · 2025年4月16日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

12+阅读 · 2018年8月15日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于案例推理的大型医院非常规突发事件应急救援系统研究

国家自然科学基金

8+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Steering Large Reasoning Models towards Concise Reasoning via Flow Matching

Arxiv

0+阅读 · 2月5日

MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning

Arxiv

0+阅读 · 2月5日

SafeRBench: Dissecting the Reasoning Safety of Large Language Models

Arxiv

0+阅读 · 1月26日

Do explanations generalize across large reasoning models?

Arxiv

0+阅读 · 1月16日

Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning

Arxiv

0+阅读 · 1月16日

ThinkBrake: A Simple Test-Time Decoding Control for Efficient Reasoning

Arxiv

0+阅读 · 1月14日

Pruning the Unsurprising: Efficient LLM Reasoning via First-Token Surprisal

Arxiv

0+阅读 · 1月8日

Investigating CoT Monitorability in Large Reasoning Models

Arxiv

0+阅读 · 1月7日

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

Arxiv

0+阅读 · 1月6日

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

大型推理模型

相关VIP内容

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

迈向大推理模型的机理理解：关于训练、推理及失效模式的综述

专知会员服务

17+阅读 · 1月29日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

别想太多：高效 R1 风格大型推理模型综述

别想太多：高效 R1 风格大型推理模型综述

专知会员服务

23+阅读 · 2025年8月5日

大模型推理的天花板在哪里？

大模型推理的天花板在哪里？

专知会员服务

15+阅读 · 2025年6月12日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

小型推理模型简要综述：训练、推理、应用与研究方向

小型推理模型简要综述：训练、推理、应用与研究方向

专知会员服务

42+阅读 · 2025年4月16日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

12+阅读 · 2018年8月15日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

Steering Large Reasoning Models towards Concise Reasoning via Flow Matching

Arxiv

0+阅读 · 2月5日

MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning

Arxiv

0+阅读 · 2月5日

SafeRBench: Dissecting the Reasoning Safety of Large Language Models

Arxiv

0+阅读 · 1月26日

Do explanations generalize across large reasoning models?

Arxiv

0+阅读 · 1月16日

Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning

Arxiv

0+阅读 · 1月16日

ThinkBrake: A Simple Test-Time Decoding Control for Efficient Reasoning

Arxiv

0+阅读 · 1月14日

Pruning the Unsurprising: Efficient LLM Reasoning via First-Token Surprisal

Arxiv

0+阅读 · 1月8日

Investigating CoT Monitorability in Large Reasoning Models

Arxiv

0+阅读 · 1月7日

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

Arxiv

0+阅读 · 1月6日

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Arxiv

0+阅读 · 2025年12月31日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于案例推理的大型医院非常规突发事件应急救援系统研究

国家自然科学基金

8+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员