ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics - 专知论文

会员服务 ·

0

错误诊断 · 输出 · 黑盒 · 即插即用 · 识别 ·

ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics

翻译：ErrEval：通过显式诊断实现问题生成的错误感知评估

Weiping Fu,Bifan Wei,Jingyi Hao,Yushun Zhang,Jian Zhang,Jiaxin Wang,Bo Li,Yu He,Lingling Zhang,Jun Liu

Automatic Question Generation (QG) often produces outputs with critical defects, such as factual hallucinations and answer mismatches. However, existing evaluation methods, including LLM-based evaluators, mainly adopt a black-box and holistic paradigm without explicit error modeling, leading to the neglect of such defects and overestimation of question quality. To address this issue, we propose ErrEval, a flexible and Error-aware Evaluation framework that enhances QG evaluation through explicit error diagnostics. Specifically, ErrEval reformulates evaluation as a two-stage process of error diagnosis followed by informed scoring. At the first stage, a lightweight plug-and-play Error Identifier detects and categorizes common errors across structural, linguistic, and content-related aspects. These diagnostic signals are then incorporated as explicit evidence to guide LLM evaluators toward more fine-grained and grounded judgments. Extensive experiments on three benchmarks demonstrate the effectiveness of ErrEval, showing that incorporating explicit diagnostics improves alignment with human judgments. Further analyses confirm that ErrEval effectively mitigates the overestimation of low-quality questions.

翻译：自动问题生成（QG）常产生具有关键缺陷的输出，例如事实性幻觉和答案不匹配。然而，现有评估方法（包括基于LLM的评估器）主要采用黑盒式整体评估范式，缺乏显式的错误建模，导致此类缺陷被忽视且问题质量被高估。为解决此问题，我们提出ErrEval，一个灵活且错误感知的评估框架，通过显式错误诊断增强QG评估。具体而言，ErrEval将评估重构为错误诊断与知情评分的两阶段过程。在第一阶段，一个轻量级即插即用的错误识别器检测并分类结构、语言和内容方面的常见错误。这些诊断信号随后作为显式证据纳入，以指导LLM评估器做出更细粒度且基于事实的判断。在三个基准数据集上的大量实验证明了ErrEval的有效性，表明引入显式诊断能提升与人类判断的一致性。进一步分析证实，ErrEval能有效缓解对低质量问题的高估现象。

0

相关内容

错误诊断

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

专知会员服务

20+阅读 · 2024年9月27日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

GAN生成式对抗网络

14+阅读 · 2019年5月20日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

时空线索在舰载机飞行员黑洞错觉中的作用机制

国家自然科学基金

2+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

RAGExplorer: A Visual Analytics System for the Comparative Diagnosis of RAG Systems

Arxiv

0+阅读 · 2月15日

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 2月13日

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

Arxiv

0+阅读 · 2月12日

RAG-E: Quantifying Retriever-Generator Alignment and Failure Modes

Arxiv

0+阅读 · 1月29日

Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis

Arxiv

0+阅读 · 1月27日

HalluJudge: A Reference-Free Hallucination Detection for Context Misalignment in Code Review Automation

Arxiv

0+阅读 · 1月27日

TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models

Arxiv

0+阅读 · 1月27日

Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models

Arxiv

0+阅读 · 1月22日

RAGExplorer: A Visual Analytics System for the Comparative Diagnosis of RAG Systems

Arxiv

0+阅读 · 1月19日

Classifying and Addressing the Diversity of Errors in Retrieval-Augmented Generation Systems

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

12+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

专知会员服务

20+阅读 · 2024年9月27日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

GAN生成式对抗网络

14+阅读 · 2019年5月20日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

相关论文

RAGExplorer: A Visual Analytics System for the Comparative Diagnosis of RAG Systems

Arxiv

0+阅读 · 2月15日

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 2月13日

LLMEval-Fair: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

Arxiv

0+阅读 · 2月12日

RAG-E: Quantifying Retriever-Generator Alignment and Failure Modes

Arxiv

0+阅读 · 1月29日

Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis

Arxiv

0+阅读 · 1月27日

HalluJudge: A Reference-Free Hallucination Detection for Context Misalignment in Code Review Automation

Arxiv

0+阅读 · 1月27日

TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models

Arxiv

0+阅读 · 1月27日

Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models

Arxiv

0+阅读 · 1月22日

RAGExplorer: A Visual Analytics System for the Comparative Diagnosis of RAG Systems

Arxiv

0+阅读 · 1月19日

Classifying and Addressing the Diversity of Errors in Retrieval-Augmented Generation Systems

Arxiv

0+阅读 · 1月15日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

时空线索在舰载机飞行员黑洞错觉中的作用机制

国家自然科学基金

2+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员