鲁棒性人物感知毒性检测：基于提示优化与学习集成 (Robust Persona-Aware Toxicity Detection with Prompt Optimization and Learned Ensembling) - 专知论文

会员服务 ·

0

集成 · 鲁棒 · 支持向量机 · 提示优化 · 系统 ·

Robust Persona-Aware Toxicity Detection with Prompt Optimization and Learned Ensembling

翻译：鲁棒性人物感知毒性检测：基于提示优化与学习集成

Berk Atil,Rebecca J. Passonneau,Ninareh Mehrabi

Toxicity detection is inherently subjective, shaped by the diverse perspectives and social priors of different demographic groups. While ``pluralistic'' modeling as used in economics and the social sciences aims to capture perspective differences across contexts, current Large Language Model (LLM) prompting techniques have different results across different personas and base models. In this work, we conduct a systematic evaluation of persona-aware toxicity detection, showing that no single prompting method, including our proposed automated prompt optimization strategy, uniformly dominates across all model-persona pairs. To exploit complementary errors, we explore ensembling four prompting variants and propose a lightweight meta-ensemble: an SVM over the 4-bit vector of prompt predictions. Our results demonstrate that the proposed SVM ensemble consistently outperforms individual prompting methods and traditional majority-voting techniques, achieving the strongest overall performance across diverse personas. This work provides one of the first systematic comparisons of persona-conditioned prompting for toxicity detection and offers a robust method for pluralistic evaluation in subjective NLP tasks.

翻译：毒性检测本质上具有主观性，其判断受到不同人口群体多元视角与社会先验的影响。尽管经济学与社会科学中采用的“多元主义”建模方法旨在捕捉不同情境下的视角差异，但当前大语言模型（LLM）的提示技术在不同人物角色与基础模型间会产生不一致的结果。本研究对人物感知毒性检测进行了系统性评估，结果表明：包括我们提出的自动化提示优化策略在内，没有任何单一提示方法能在所有模型-人物角色配对中均占优势。为利用互补性误差，我们探索了集成四种提示变体的方法，并提出一种轻量级元集成策略：基于四维提示预测向量的支持向量机（SVM）。实验结果表明，所提出的SVM集成方法持续优于单一提示技术与传统多数投票方法，在多样化人物角色中实现了最强的整体性能。本研究首次系统比较了人物角色条件提示在毒性检测中的应用，并为主观性自然语言处理任务中的多元评估提供了一种鲁棒性方法。

0

相关内容

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

13+阅读 · 2025年7月3日

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

专知会员服务

22+阅读 · 2025年7月3日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

30+阅读 · 2025年4月12日

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

专知会员服务

25+阅读 · 2024年7月2日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

41+阅读 · 2023年10月29日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

基于深度学习的人群异常行为检测综述

专知会员服务

46+阅读 · 2021年10月1日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

干货 | 视频显著性目标检测（文末附有完整源码）

干货 | 视频显著性目标检测（文末附有完整源码）

计算机视觉战队

14+阅读 · 2019年4月29日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments

Arxiv

0+阅读 · 2月5日

Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework

Arxiv

0+阅读 · 2月3日

Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection

Arxiv

0+阅读 · 2月2日

Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning

Arxiv

0+阅读 · 2月2日

Argument-Based Consistency in Toxicity Explanations of LLMs

Arxiv

0+阅读 · 1月25日

Robust Fake News Detection using Large Language Models under Adversarial Sentiment Attacks

Arxiv

0+阅读 · 1月21日

Combating Toxic Language: A Review of LLM-Based Strategies for Software Engineering

Arxiv

0+阅读 · 1月20日

When to Invoke: Refining LLM Fairness with Toxicity Assessment

Arxiv

0+阅读 · 1月14日

DVD: A Robust Method for Detecting Variant Contamination in Large Language Model Evaluation

Arxiv

0+阅读 · 1月8日

From Intrinsic Toxicity to Reception-Based Toxicity: A Contextual Framework for Prediction and Evaluation

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

支持向量机

相关VIP内容

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

13+阅读 · 2025年7月3日

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

专知会员服务

22+阅读 · 2025年7月3日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

30+阅读 · 2025年4月12日

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

专知会员服务

25+阅读 · 2024年7月2日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

41+阅读 · 2023年10月29日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

基于深度学习的人群异常行为检测综述

专知会员服务

46+阅读 · 2021年10月1日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

干货 | 视频显著性目标检测（文末附有完整源码）

干货 | 视频显著性目标检测（文末附有完整源码）

计算机视觉战队

14+阅读 · 2019年4月29日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

【论文推荐】最新九篇目标检测相关论文—常识性知识转移、尺度不敏感、多尺度位置感知、渐进式域适应、时间感知特征图、人机合作

专知

17+阅读 · 2018年4月11日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

相关论文

Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments

Arxiv

0+阅读 · 2月5日

Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework

Arxiv

0+阅读 · 2月3日

Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection

Arxiv

0+阅读 · 2月2日

Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning

Arxiv

0+阅读 · 2月2日

Argument-Based Consistency in Toxicity Explanations of LLMs

Arxiv

0+阅读 · 1月25日

Robust Fake News Detection using Large Language Models under Adversarial Sentiment Attacks

Arxiv

0+阅读 · 1月21日

Combating Toxic Language: A Review of LLM-Based Strategies for Software Engineering

Arxiv

0+阅读 · 1月20日

When to Invoke: Refining LLM Fairness with Toxicity Assessment

Arxiv

0+阅读 · 1月14日

DVD: A Robust Method for Detecting Variant Contamination in Large Language Model Evaluation

Arxiv

0+阅读 · 1月8日

From Intrinsic Toxicity to Reception-Based Toxicity: A Contextual Framework for Prediction and Evaluation

Arxiv

0+阅读 · 1月6日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员