FactSim: Fact-Checking for Opinion Summarization - 专知论文

会员服务 ·

0

一致 · 事实核查 · 文本摘要 · 全自动 · 相似性 ·

FactSim: Fact-Checking for Opinion Summarization

翻译：FactSim：面向观点摘要的事实核查

Leandro Anghinoni,Jorge Sanchez

from arxiv, 10 pages, 4 figures

We explore the need for more comprehensive and precise evaluation techniques for generative artificial intelligence (GenAI) in text summarization tasks, specifically in the area of opinion summarization. Traditional methods, which leverage automated metrics to compare machine-generated summaries from a collection of opinion pieces, e.g. product reviews, have shown limitations due to the paradigm shift introduced by large language models (LLM). This paper addresses these shortcomings by proposing a novel, fully automated methodology for assessing the factual consistency of such summaries. The method is based on measuring the similarity between the claims in a given summary with those from the original reviews, measuring the coverage and consistency of the generated summary. To do so, we rely on a simple approach to extract factual assessment from texts that we then compare and summarize in a suitable score. We demonstrate that the proposed metric attributes higher scores to similar claims, regardless of whether the claim is negated, paraphrased, or expanded, and that the score has a high correlation to human judgment when compared to state-of-the-art metrics.

翻译：本文探讨了在文本摘要任务中，特别是观点摘要领域，对生成式人工智能（GenAI）进行更全面、更精确评估的必要性。传统方法利用自动化指标来比较从一系列观点性文本（例如产品评论）中生成的机器摘要，但由于大语言模型（LLM）带来的范式转变，这些方法已显示出局限性。本文通过提出一种新颖的、全自动的方法论来评估此类摘要的事实一致性，以应对这些不足。该方法基于测量给定摘要中的主张与原始评论中的主张之间的相似性，从而衡量生成摘要的覆盖度和一致性。为此，我们采用一种简单的方法从文本中提取事实性评估，然后进行比较并汇总为一个合适的分数。我们证明，所提出的度量指标能为相似的主张赋予更高的分数，无论该主张是否被否定、转述或扩展；并且与最先进的指标相比，该分数与人类判断具有高度相关性。

0

相关内容

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

专知会员服务

27+阅读 · 2025年7月26日

如何全面了解提示技术？马里兰大学等最新76页《提示报告：提示技术》系统综述

如何全面了解提示技术？马里兰大学等最新76页《提示报告：提示技术》系统综述

专知会员服务

40+阅读 · 2024年6月12日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

【微软】利用知识图谱提高抽象摘要的事实正确性，Boosting Factual Correctness

专知会员服务

18+阅读 · 2020年3月23日

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

专知会员服务

30+阅读 · 2019年10月13日

【综述】视频摘要最新综述文章，附45页综述全文下载

【综述】视频摘要最新综述文章，附45页综述全文下载

专知会员服务

34+阅读 · 2019年9月20日

对比学习（Contrastive Learning）相关进展梳理

对比学习（Contrastive Learning）相关进展梳理

PaperWeekly

11+阅读 · 2020年5月12日

【综述】视频摘要最新综述文章，附45页综述全文下载

【综述】视频摘要最新综述文章，附45页综述全文下载

专知

30+阅读 · 2019年10月2日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Arxiv

0+阅读 · 3月5日

Multi-Sourced, Multi-Agent Evidence Retrieval for Fact-Checking

Arxiv

0+阅读 · 2月27日

AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization

Arxiv

0+阅读 · 2月23日

Entailed Opinion Matters: Improving the Fact-Checking Performance of Language Models by Relying on their Entailment Ability

Arxiv

0+阅读 · 2月20日

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

Chain of Summaries: Summarization Through Iterative Questioning

Arxiv

0+阅读 · 2月16日

ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction

Arxiv

0+阅读 · 2月12日

DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories

Arxiv

0+阅读 · 2月9日

Precision in Practice: Knowledge Guided Code Summarizing Grounded in Industrial Expectations

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

相关VIP内容

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

专知会员服务

27+阅读 · 2025年7月26日

如何全面了解提示技术？马里兰大学等最新76页《提示报告：提示技术》系统综述

如何全面了解提示技术？马里兰大学等最新76页《提示报告：提示技术》系统综述

专知会员服务

40+阅读 · 2024年6月12日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

【微软】利用知识图谱提高抽象摘要的事实正确性，Boosting Factual Correctness

专知会员服务

18+阅读 · 2020年3月23日

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

专知会员服务

30+阅读 · 2019年10月13日

【综述】视频摘要最新综述文章，附45页综述全文下载

【综述】视频摘要最新综述文章，附45页综述全文下载

专知会员服务

34+阅读 · 2019年9月20日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

对比学习（Contrastive Learning）相关进展梳理

对比学习（Contrastive Learning）相关进展梳理

PaperWeekly

11+阅读 · 2020年5月12日

【综述】视频摘要最新综述文章，附45页综述全文下载

【综述】视频摘要最新综述文章，附45页综述全文下载

专知

30+阅读 · 2019年10月2日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

相关论文

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Arxiv

0+阅读 · 3月5日

Multi-Sourced, Multi-Agent Evidence Retrieval for Fact-Checking

Arxiv

0+阅读 · 2月27日

AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization

Arxiv

0+阅读 · 2月23日

Entailed Opinion Matters: Improving the Fact-Checking Performance of Language Models by Relying on their Entailment Ability

Arxiv

0+阅读 · 2月20日

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

DistillNote: Toward a Functional Evaluation Framework of LLM-Generated Clinical Note Summaries

Arxiv

0+阅读 · 2月19日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

Chain of Summaries: Summarization Through Iterative Questioning

Arxiv

0+阅读 · 2月16日

ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction

Arxiv

0+阅读 · 2月12日

DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories

Arxiv

0+阅读 · 2月9日

Precision in Practice: Knowledge Guided Code Summarizing Grounded in Industrial Expectations

Arxiv

0+阅读 · 2月3日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员