Sarcasm detection is a crucial yet challenging Natural Language Processing task. Existing Large Language Model methods are often limited by single-perspective analysis, static reasoning pathways, and a susceptibility to hallucination when processing complex ironic rhetoric, which impacts their accuracy and reliability. To address these challenges, we propose **SEVADE**, a novel **S**elf-**Ev**olving multi-agent **A**nalysis framework with **D**ecoupled **E**valuation for hallucination-resistant sarcasm detection. The core of our framework is a Dynamic Agentive Reasoning Engine (DARE), which utilizes a team of specialized agents grounded in linguistic theory to perform a multifaceted deconstruction of the text and generate a structured reasoning chain. Subsequently, a separate lightweight rationale adjudicator (RA) performs the final classification based solely on this reasoning chain. This decoupled architecture is designed to mitigate the risk of hallucination by separating complex reasoning from the final judgment. Extensive experiments on four benchmark datasets demonstrate that our framework achieves state-of-the-art performance, with average improvements of **6.75%** in Accuracy and **6.29%** in Macro-F1 score.


翻译:反讽检测是一项关键但极具挑战性的自然语言处理任务。现有的大型语言模型方法在处理复杂的反讽修辞时,通常受限于单一视角分析、静态推理路径以及易产生幻觉,这影响了其准确性和可靠性。为解决这些挑战,我们提出了**SEVADE**,一种新颖的**自演进多智能体分析**框架,采用**解耦评估**以实现抗幻觉的反讽检测。我们框架的核心是一个动态智能体推理引擎,它利用一个基于语言学理论的专业智能体团队,对文本进行多方面的解构并生成结构化的推理链。随后,一个独立的轻量级理据裁决器仅基于此推理链执行最终分类。这种解耦架构旨在通过将复杂推理与最终判断分离来降低幻觉风险。在四个基准数据集上的大量实验表明,我们的框架实现了最先进的性能,在准确率上平均提升了**6.75%**,在宏平均F1分数上平均提升了**6.29%**。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
基于深度学习的伪装目标检测研究进展
专知会员服务
30+阅读 · 2025年4月12日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
内省扩散语言模型
专知会员服务
1+阅读 · 今天14:42
国外反无人机系统与技术动态
专知会员服务
2+阅读 · 今天12:48
大规模作战行动中的战术作战评估(研究论文)
专知会员服务
3+阅读 · 今天12:21
未来的海战无人自主系统
专知会员服务
2+阅读 · 今天12:05
美军多域作战现状分析:战略、概念还是幻想?
专知会员服务
4+阅读 · 今天11:52
无人机与反无人机系统(书籍)
专知会员服务
16+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
6+阅读 · 今天5:49
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
基于深度学习的伪装目标检测研究进展
专知会员服务
30+阅读 · 2025年4月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员