IndicGuard: A Multilingual Safety Guard Model and Dataset for Indic Languages - 专知论文

会员服务 ·

0

MoDELS · 数据集 · 稳健性 · 语言模型化 · Integration ·

IndicGuard: A Multilingual Safety Guard Model and Dataset for Indic Languages

翻译：暂无翻译

Parth Bramhecha,Smit Deshmukh,Sairaj Bodhale,Adwait Borate,Raviraj Joshi

As Large Language Models (LLMs) achieve widespread integration across diverse linguistic landscapes, ensuring their safety and alignment with regional normative values remains a critical challenge. Current safety mechanisms are predominantly optimized for English-centric frameworks, often failing to capture the unique socio-cultural sensitivities and localized categories of harm inherent to the Indic region. To address this gap, we introduce IndicGuard, a multilingual safety guard model and dataset for Indic languages. We construct a high-volume, culturally nuanced safety dataset encompassing ten major Indic languages, systematically curated to capture regional harms, sensitive socio-political contexts, and adversarial jailbreaks. Leveraging this corpus, we fine-tune a 4B-parameter instruction-tuned model based on Gemma-3-4B-IT to serve as a multilingual safety guardrail for real-time content moderation and policy compliance checking. Our empirical evaluations demonstrate that IndicGuard significantly enhances LLM robustness against localized vulnerabilities, achieving high moderation consistency across different conversational turns. Crucially, IndicGuard consistently outperforms the existing baseline model, CultureGuard, across evaluated languages. Finally, we demonstrate that our model effectively generalizes to low-resource Indic languages excluded from training, substantiating the structural robustness and cross-lingual transfer capabilities of the framework.

翻译：暂无翻译

0

相关内容

MoDELS

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

专知会员服务

21+阅读 · 2025年8月1日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

50+阅读 · 2024年12月24日

大语言模型安全开发者手册：构建安全的 AI 应用程序

大语言模型安全开发者手册：构建安全的 AI 应用程序

专知会员服务

35+阅读 · 2024年9月29日

《大型语言模型保护措施》综述

《大型语言模型保护措施》综述

专知会员服务

29+阅读 · 2024年6月6日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

【2024新书】大型语言模型安全开发者手册，250页pdf

【2024新书】大型语言模型安全开发者手册，250页pdf

专知会员服务

76+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【CVPR2021】面向通用领域自适应的领域共识聚类

【CVPR2021】面向通用领域自适应的领域共识聚类

专知

24+阅读 · 2021年5月6日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

AfriqueLLM: How Data Mixing and Model Architecture Impact Continued Pre-training for African Languages

Arxiv

0+阅读 · 6月23日

Diffusion Language Models: An Experimental Analysis

Arxiv

0+阅读 · 6月22日

TriggerBench: Investigating Prospective Memory for Large Language Models

Arxiv

0+阅读 · 6月22日

Understanding the (In)Security of Vibe-Coded Applications

Arxiv

0+阅读 · 6月22日

A Practical and Privacy-Preserving Framework for Real-World Large Language Model Services

Arxiv

0+阅读 · 6月22日

The Origins of Stochasticity: Comprehensive Investigations on Uncertainty Quantification for Large Language Models

Arxiv

0+阅读 · 6月22日

AgentLens: Interpretable Safety Steering via Mechanistic Subspaces for Multi-Turn Coding Agent

Arxiv

0+阅读 · 6月21日

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

Arxiv

0+阅读 · 6月18日

Creating Multilingual Mental Health Dialogue Datasets: Limits of Persona-Based Localization via Nationality and Language

Arxiv

0+阅读 · 6月17日

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Arxiv

0+阅读 · 6月17日

VIP会员

文章信息

相关主题

语言模型化

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

1+阅读 · 17分钟前

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

0+阅读 · 34分钟前

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

0+阅读 · 50分钟前

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

1+阅读 · 刚刚

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

1+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

1+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

3+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

专知会员服务

21+阅读 · 2025年8月1日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

50+阅读 · 2024年12月24日

大语言模型安全开发者手册：构建安全的 AI 应用程序

大语言模型安全开发者手册：构建安全的 AI 应用程序

专知会员服务

35+阅读 · 2024年9月29日

《大型语言模型保护措施》综述

《大型语言模型保护措施》综述

专知会员服务

29+阅读 · 2024年6月6日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

【2024新书】大型语言模型安全开发者手册，250页pdf

【2024新书】大型语言模型安全开发者手册，250页pdf

专知会员服务

76+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【CVPR2021】面向通用领域自适应的领域共识聚类

【CVPR2021】面向通用领域自适应的领域共识聚类

专知

24+阅读 · 2021年5月6日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

AfriqueLLM: How Data Mixing and Model Architecture Impact Continued Pre-training for African Languages

Arxiv

0+阅读 · 6月23日

Diffusion Language Models: An Experimental Analysis

Arxiv

0+阅读 · 6月22日

TriggerBench: Investigating Prospective Memory for Large Language Models

Arxiv

0+阅读 · 6月22日

Understanding the (In)Security of Vibe-Coded Applications

Arxiv

0+阅读 · 6月22日

A Practical and Privacy-Preserving Framework for Real-World Large Language Model Services

Arxiv

0+阅读 · 6月22日

The Origins of Stochasticity: Comprehensive Investigations on Uncertainty Quantification for Large Language Models

Arxiv

0+阅读 · 6月22日

AgentLens: Interpretable Safety Steering via Mechanistic Subspaces for Multi-Turn Coding Agent

Arxiv

0+阅读 · 6月21日

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

Arxiv

0+阅读 · 6月18日

Creating Multilingual Mental Health Dialogue Datasets: Limits of Persona-Based Localization via Nationality and Language

Arxiv

0+阅读 · 6月17日

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Arxiv

0+阅读 · 6月17日

相关基金

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员