SafeMath: Inference-time Safety improves Math Accuracy - 专知论文

会员服务 ·

0

数学 · 数据集 · 安全对齐 · 对齐 · 语言模型 ·

SafeMath: Inference-time Safety improves Math Accuracy

翻译：SafeMath：推理时安全性提升数学准确性

Sagnik Basu,Subhrajit Mitra,Aman Juneja,Somnath Banerjee,Rima Hazra,Animesh Mukherjee

from arxiv, Submitted in ARR March 2026

Recent research points toward LLMs being manipulated through adversarial and seemingly benign inputs, resulting in harmful, biased, or policy-violating outputs. In this paper, we study an underexplored issue concerning harmful and toxic mathematical word problems. We show that math questions, particularly those framed as natural language narratives, can serve as a subtle medium for propagating biased, unethical, or psychologically harmful content, with heightened risks in educational settings involving children. To support a systematic study of this phenomenon, we introduce ToxicGSM, a dataset of 1.9k arithmetic problems in which harmful or sensitive context is embedded while preserving mathematically well-defined reasoning tasks. Using this dataset, we audit the behaviour of existing LLMs and analyse the trade-offs between safety enforcement and mathematical correctness. We further propose SafeMath -- a safety alignment technique that reduces harmful outputs while maintaining, and in some cases improving, mathematical reasoning performance. Our results highlight the importance of disentangling linguistic harm from math reasoning and demonstrate that effective safety alignment need not come at the cost of accuracy. We release the source code and dataset at https://github.com/Swagnick99/SafeMath/tree/main.

翻译：近期研究表明，大型语言模型可能通过对抗性及表面看似正常的输入被操纵，从而产生有害、有偏见或违反政策的结果。本文探讨了一个尚未充分研究的议题：有害且具有毒性的数学应用题。我们证明，数学问题——尤其是以自然语言叙述形式呈现的问题——可以作为传播偏见、不道德或心理有害内容的隐蔽媒介，在涉及儿童的教育场景中风险尤为突出。为系统研究这一现象，我们引入了ToxicGSM数据集，包含1,900个算术问题，其中嵌入了有害或敏感语境，同时保留了数学定义明确的推理任务。利用该数据集，我们审计了现有大型语言模型的行为，并分析了安全约束与数学正确性之间的权衡。我们进一步提出SafeMath——一种安全对齐技术，在减少有害输出的同时，维持甚至提升数学推理性能。我们的结果强调了将语言危害与数学推理剥离的重要性，并表明有效的安全对齐不必以准确性为代价。开源代码及数据集发布于https://github.com/Swagnick99/SafeMath/tree/main。

0

相关内容

数学是关于数量、结构、变化等主题的探索。

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

《基于大语言模型的数学推理与优化研究综述》

《基于大语言模型的数学推理与优化研究综述》

专知会员服务

33+阅读 · 2025年3月26日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

78+阅读 · 2022年4月5日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios

Arxiv

0+阅读 · 5月1日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 4月19日

Safe-FedLLM: Delving into the Safety of Federated Large Language Models

Arxiv

0+阅读 · 4月18日

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

Arxiv

0+阅读 · 4月17日

SAGE: Selective Attention-Guided Extraction for Token-Efficient

Arxiv

0+阅读 · 4月16日

Beyond "Hallucinations": A Framework for Stable Human-AI Reasoning

Arxiv

0+阅读 · 4月16日

Safe-FedLLM: Delving into the Safety of Federated Large Language Models

Arxiv

0+阅读 · 4月14日

CausalPre: Scalable and Effective Data Pre-Processing for Causal Fairness

Arxiv

0+阅读 · 3月26日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

《基于大语言模型的数学推理与优化研究综述》

《基于大语言模型的数学推理与优化研究综述》

专知会员服务

33+阅读 · 2025年3月26日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

78+阅读 · 2022年4月5日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

机器学习必备的数学基础有哪些？

机器学习必备的数学基础有哪些？

人工智能头条

12+阅读 · 2019年10月18日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios

Arxiv

0+阅读 · 5月1日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 4月19日

Safe-FedLLM: Delving into the Safety of Federated Large Language Models

Arxiv

0+阅读 · 4月18日

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

Arxiv

0+阅读 · 4月17日

SAGE: Selective Attention-Guided Extraction for Token-Efficient

Arxiv

0+阅读 · 4月16日

Beyond "Hallucinations": A Framework for Stable Human-AI Reasoning

Arxiv

0+阅读 · 4月16日

Safe-FedLLM: Delving into the Safety of Federated Large Language Models

Arxiv

0+阅读 · 4月14日

CausalPre: Scalable and Effective Data Pre-Processing for Causal Fairness

Arxiv

0+阅读 · 3月26日

SecureBreak -- A dataset towards safe and secure models

Arxiv

0+阅读 · 3月23日

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Arxiv

0+阅读 · 3月19日

相关基金

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员