Combating Toxic Language: A Review of LLM-Based Strategies for Software Engineering - 专知论文

会员服务 ·

0

软件 · 综述 · 软件工程 · 大语言模型 · 对抗 ·

Combating Toxic Language: A Review of LLM-Based Strategies for Software Engineering

翻译：对抗毒性语言：基于LLM的软件工程策略综述

Hao Zhuo,Yicheng Yang,Kewen Peng

Large Language Models (LLMs) have become integral to Software Engineering (SE), increasingly used in development workflows. However, their widespread adoption raises concerns about the presence and propagation of toxic language - harmful or offensive content that can foster exclusionary environments. This paper provides a comprehensive review of recent research (2020-2024) on toxicity detection and mitigation, focusing on both SE-specific and general-purpose datasets. We examine annotation and pre-processing techniques, assess detection methodologies, and evaluate mitigation strategies, particularly those leveraging LLMs. Additionally, we conduct an ablation study demonstrating the effectiveness of LLM-based rewriting for reducing toxicity. This review is limited to studies published within the specified timeframe and within the domain of toxicity in LLMs and SE; therefore, certain emerging methods or datasets beyond this period may fall outside its purview. By synthesizing existing work and identifying open challenges, this review highlights key areas for future research to ensure the responsible deployment of LLMs in SE and beyond.

翻译：大型语言模型（LLM）已成为软件工程（SE）不可或缺的组成部分，在开发工作流程中的应用日益广泛。然而，其广泛采用引发了人们对毒性语言（即可能助长排他性环境的有害或冒犯性内容）的存在和传播的担忧。本文全面综述了近期（2020-2024年）关于毒性检测与缓解的研究，重点关注SE专用和通用数据集。我们考察了标注与预处理技术，评估了检测方法学，并评价了缓解策略，特别是那些利用LLM的策略。此外，我们进行了一项消融研究，证明了基于LLM的重写对于降低毒性的有效性。本综述仅限于指定时间范围内发表的、专注于LLM和SE领域毒性问题的研究；因此，超出此时期或范围的某些新兴方法或数据集可能不在其涵盖范围内。通过综合现有工作并识别开放挑战，本综述强调了未来研究的关键领域，以确保LLM在SE及其他领域的负责任部署。

0

相关内容

软件（中国大陆及香港用语，台湾作软体，英文：Software）是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

32+阅读 · 2025年4月23日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

专知会员服务

15+阅读 · 2025年1月17日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

42+阅读 · 2025年1月9日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

129+阅读 · 2024年6月13日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

11+阅读 · 2022年9月29日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

HarmMetric Eval: Benchmarking Metrics and Judges for LLM Harmfulness Assessment

Arxiv

0+阅读 · 2月11日

Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation

Arxiv

0+阅读 · 2月8日

Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention

Arxiv

0+阅读 · 2月6日

Failure-Aware Enhancements for Large Language Model (LLM) Code Generation: An Empirical Study on Decision Framework

Arxiv

0+阅读 · 2月2日

Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment

Arxiv

0+阅读 · 2月2日

Information Security Based on LLM Approaches: A Review

Arxiv

0+阅读 · 2月1日

Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models

Arxiv

0+阅读 · 1月30日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月19日

Empirical and Sustainability Aspects of Software Engineering Research in the Era of Large Language Models: A Reflection

Arxiv

0+阅读 · 1月19日

When to Invoke: Refining LLM Fairness with Toxicity Assessment

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

6+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

4+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

8+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

32+阅读 · 2025年4月23日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

专知会员服务

15+阅读 · 2025年1月17日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

42+阅读 · 2025年1月9日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

56+阅读 · 2024年11月17日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

129+阅读 · 2024年6月13日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

11+阅读 · 2022年9月29日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP 与 NLU：从语言理解到语言处理

NLP 与 NLU：从语言理解到语言处理

AI研习社

15+阅读 · 2019年5月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关论文

HarmMetric Eval: Benchmarking Metrics and Judges for LLM Harmfulness Assessment

Arxiv

0+阅读 · 2月11日

Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation

Arxiv

0+阅读 · 2月8日

Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention

Arxiv

0+阅读 · 2月6日

Failure-Aware Enhancements for Large Language Model (LLM) Code Generation: An Empirical Study on Decision Framework

Arxiv

0+阅读 · 2月2日

Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment

Arxiv

0+阅读 · 2月2日

Information Security Based on LLM Approaches: A Review

Arxiv

0+阅读 · 2月1日

Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models

Arxiv

0+阅读 · 1月30日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月19日

Empirical and Sustainability Aspects of Software Engineering Research in the Era of Large Language Models: A Reflection

Arxiv

0+阅读 · 1月19日

When to Invoke: Refining LLM Fairness with Toxicity Assessment

Arxiv

0+阅读 · 1月14日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员