SafeGPT：防范企业大语言模型应用中的数据泄露与不道德输出 (SafeGPT: Preventing Data Leakage and Unethical Outputs in Enterprise LLM Use) - 专知论文

会员服务 ·

0

输出 · 数据泄露 · 不道德 · 语言模型 · 大语言模型 ·

SafeGPT: Preventing Data Leakage and Unethical Outputs in Enterprise LLM Use

翻译：SafeGPT：防范企业大语言模型应用中的数据泄露与不道德输出

Pratyush Desai,Luoxi Tang,Yuqiao Meng,Zhaohan Xi

Large Language Models (LLMs) are transforming enterprise workflows but introduce security and ethics challenges when employees inadvertently share confidential data or generate policy-violating content. This paper proposes SafeGPT, a two-sided guardrail system preventing sensitive data leakage and unethical outputs. SafeGPT integrates input-side detection/redaction, output-side moderation/reframing, and human-in-the-loop feedback. Experiments demonstrate SafeGPT effectively reduces data leakage risk and biased outputs while maintaining satisfaction.

翻译：大语言模型（LLMs）正在变革企业工作流程，但当员工无意中分享机密数据或生成违反政策的内容时，也带来了安全与伦理挑战。本文提出SafeGPT，一种双向防护系统，用于防范敏感数据泄露和不道德输出。SafeGPT集成了输入侧检测/脱敏、输出侧审核/重构以及人机协同反馈机制。实验表明，SafeGPT在保持用户满意度的同时，能有效降低数据泄露风险和偏见性输出。

0

相关内容

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大型语言模型在国家安全应用中的使用

大型语言模型在国家安全应用中的使用

专知会员服务

55+阅读 · 2024年7月13日

《大型语言模型保护措施》综述

《大型语言模型保护措施》综述

专知会员服务

29+阅读 · 2024年6月6日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

67+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

互联网金融

10+阅读 · 2017年7月13日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Risk Assessment and Security Analysis of Large Language Models

Arxiv

0+阅读 · 2月4日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks

Arxiv

0+阅读 · 1月30日

Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning

Arxiv

0+阅读 · 1月28日

From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses

Arxiv

0+阅读 · 1月19日

Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

Arxiv

0+阅读 · 1月13日

Towards Verifiably Safe Tool Use for LLM Agents

Arxiv

0+阅读 · 1月12日

Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

Arxiv

0+阅读 · 1月11日

Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak

Arxiv

0+阅读 · 1月1日

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大型语言模型在国家安全应用中的使用

大型语言模型在国家安全应用中的使用

专知会员服务

55+阅读 · 2024年7月13日

《大型语言模型保护措施》综述

《大型语言模型保护措施》综述

专知会员服务

29+阅读 · 2024年6月6日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

67+阅读 · 2024年5月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战场：陆军未来主导地位

伊朗导弹威胁持续，美军将“萨德”系统从韩国重新部署到中东

油价飙升考验特朗普政府对伊朗战略

《美陆军条令：陆军目标打击情报支援》2026最新版

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

互联网金融

10+阅读 · 2017年7月13日

相关论文

Risk Assessment and Security Analysis of Large Language Models

Arxiv

0+阅读 · 2月4日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

FraudShield: Knowledge Graph Empowered Defense for LLMs against Fraud Attacks

Arxiv

0+阅读 · 1月30日

Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning

Arxiv

0+阅读 · 1月28日

From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses

Arxiv

0+阅读 · 1月19日

Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

Arxiv

0+阅读 · 1月13日

Towards Verifiably Safe Tool Use for LLM Agents

Arxiv

0+阅读 · 1月12日

Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

Arxiv

0+阅读 · 1月11日

Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak

Arxiv

0+阅读 · 1月1日

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Arxiv

0+阅读 · 1月1日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员