PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions - 专知论文

会员服务 ·

0

对抗 · 分析 · 在线 · 语言处理 · 工具 ·

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

翻译：PEACE 2.0：基于证据的解释与反制言论以对抗仇恨表达

Greta Damo,Stéphane Petiot,Elena Cabrio,Serena Villata

The increasing volume of hate speech on online platforms poses significant societal challenges. While the Natural Language Processing community has developed effective methods to automatically detect the presence of hate speech, responses to it, called counter-speech, are still an open challenge. We present PEACE 2.0, a novel tool that, besides analysing and explaining why a message is considered hateful or not, also generates a response to it. More specifically, PEACE 2.0 has three main new functionalities: leveraging a Retrieval-Augmented Generation (RAG) pipeline i) to ground HS explanations into evidence and facts, ii) to automatically generate evidence-grounded counter-speech, and iii) exploring the characteristics of counter-speech replies. By integrating these capabilities, PEACE 2.0 enables in-depth analysis and response generation for both explicit and implicit hateful messages.

翻译：在线平台上日益增长的仇恨言论带来了重大的社会挑战。尽管自然语言处理领域已开发出有效方法来自动检测仇恨言论的存在，但对其的回应——即所谓的反制言论——仍是一个开放的难题。本文提出PEACE 2.0，这是一种新颖的工具，除了分析和解释为何一条信息被视为仇恨言论或非仇恨言论外，还能生成针对它的回应。具体而言，PEACE 2.0具备三项主要新功能：利用检索增强生成（RAG）流程，i) 将仇恨言论解释基于证据和事实，ii) 自动生成基于证据的反制言论，以及 iii) 探索反制言论回复的特征。通过整合这些能力，PEACE 2.0能够对显性和隐性的仇恨信息进行深度分析与回应生成。

0

相关内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

18+阅读 · 4月22日

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

专知会员服务

21+阅读 · 2024年3月18日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

45+阅读 · 2024年1月23日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

31+阅读 · 2023年2月17日

【AI+军事】附论文+PPT《理解不断变化的威胁：一种新的人工智能方法来监测暴力组织及其来自开源的特征定义》，荷兰应用科学研究组织（TNO）等

【AI+军事】附论文+PPT《理解不断变化的威胁：一种新的人工智能方法来监测暴力组织及其来自开源的特征定义》，荷兰应用科学研究组织（TNO）等

专知会员服务

25+阅读 · 2022年4月9日

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

专知会员服务

19+阅读 · 2022年2月27日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

专知会员服务

36+阅读 · 2020年10月24日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

I2P - 适用于黑客的Android应用程序

I2P - 适用于黑客的Android应用程序

黑白之道

38+阅读 · 2019年3月6日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于图模型冲突分析反问题理论的第三方调解策略研究

国家自然科学基金

3+阅读 · 2014年12月31日

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 3月7日

Echoes of Norms: Investigating Counterspeech Bots' Influence on Bystanders in Online Communities

Arxiv

0+阅读 · 3月4日

Take the Power Back: Screen-Based Personal Moderation Against Hate Speech on Instagram

Arxiv

0+阅读 · 3月1日

Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection

Arxiv

0+阅读 · 2月22日

TruthStance: An Annotated Dataset of Conversations on Truth Social

Arxiv

0+阅读 · 2月16日

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

Arxiv

0+阅读 · 2月11日

Towards Training-free Multimodal Hate Localisation with Large Language Models

Arxiv

0+阅读 · 2月10日

DEBATE: A Large-Scale Benchmark for Evaluating Opinion Dynamics in Role-Playing LLM Agents

DEBATE: A Large-Scale Benchmark for Evaluating Opinion Dynamics in Role-Playing LLM Agents

Arxiv

0+阅读 · 2月5日

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

Causality Guided Representation Learning for Cross-Style Hate Speech Detection

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

14+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

15+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

18+阅读 · 4月22日

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

专知会员服务

21+阅读 · 2024年3月18日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

45+阅读 · 2024年1月23日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

31+阅读 · 2023年2月17日

【AI+军事】附论文+PPT《理解不断变化的威胁：一种新的人工智能方法来监测暴力组织及其来自开源的特征定义》，荷兰应用科学研究组织（TNO）等

【AI+军事】附论文+PPT《理解不断变化的威胁：一种新的人工智能方法来监测暴力组织及其来自开源的特征定义》，荷兰应用科学研究组织（TNO）等

专知会员服务

25+阅读 · 2022年4月9日

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

专知会员服务

19+阅读 · 2022年2月27日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

专知会员服务

36+阅读 · 2020年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

I2P - 适用于黑客的Android应用程序

I2P - 适用于黑客的Android应用程序

黑白之道

38+阅读 · 2019年3月6日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

相关论文

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 3月7日

Echoes of Norms: Investigating Counterspeech Bots' Influence on Bystanders in Online Communities

Arxiv

0+阅读 · 3月4日

Take the Power Back: Screen-Based Personal Moderation Against Hate Speech on Instagram

Arxiv

0+阅读 · 3月1日

Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection

Arxiv

0+阅读 · 2月22日

TruthStance: An Annotated Dataset of Conversations on Truth Social

Arxiv

0+阅读 · 2月16日

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

Arxiv

0+阅读 · 2月11日

Towards Training-free Multimodal Hate Localisation with Large Language Models

Arxiv

0+阅读 · 2月10日

DEBATE: A Large-Scale Benchmark for Evaluating Opinion Dynamics in Role-Playing LLM Agents

DEBATE: A Large-Scale Benchmark for Evaluating Opinion Dynamics in Role-Playing LLM Agents

Arxiv

0+阅读 · 2月5日

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

Causality Guided Representation Learning for Cross-Style Hate Speech Detection

Arxiv

0+阅读 · 2月3日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于图模型冲突分析反问题理论的第三方调解策略研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员