从碎片到事实：一种基于课程学习的DPO方法用于生成印地语新闻真实性解释 (From Fragments to Facts: A Curriculum-Driven DPO Approach for Generating Hindi News Veracity Explanations) - 专知论文

会员服务 ·

0

新闻 · 错误信息 · 课程学习 · 课程 · 一致 ·

From Fragments to Facts: A Curriculum-Driven DPO Approach for Generating Hindi News Veracity Explanations

翻译：从碎片到事实：一种基于课程学习的DPO方法用于生成印地语新闻真实性解释

Pulkit Bansal,Raghvendra Kumar,Shakti Singh,Sriparna Saha,Adam Jatowt

In an era of rampant misinformation, generating reliable news explanations is vital, especially for under-represented languages like Hindi. Lacking robust automated tools, Hindi faces challenges in scaling misinformation detection. To bridge this gap, we propose a novel framework integrating Direct Preference Optimization (DPO) with curriculum learning to align machine-generated explanations with human reasoning. Fact-checked explanations from credible sources serve as preferred responses, while LLM outputs highlight system limitations and serve as non-preferred responses. To refine task-specific alignment, we introduce two key parameters -- Actuality and Finesse -- into the DPO loss function, enhancing explanation quality and consistency. Experiments with LLMs (Mistral, Llama, Gemma) and PLMs (mBART, mT5) confirm the framework's effectiveness in generating coherent, contextually relevant explanations. This scalable approach combats misinformation and extends automated explanation generation to low-resource languages.

翻译：在错误信息泛滥的时代，生成可靠的新闻解释至关重要，对于印地语等代表性不足的语言尤其如此。由于缺乏强大的自动化工具，印地语在规模化错误信息检测方面面临挑战。为弥补这一差距，我们提出了一种将直接偏好优化（DPO）与课程学习相结合的新颖框架，以使机器生成的解释与人类推理保持一致。来自可信来源的事实核查解释作为优选响应，而大语言模型（LLM）的输出则突显系统局限性并作为非优选响应。为细化任务特定的对齐，我们在DPO损失函数中引入了两个关键参数——事实性（Actuality）与精细度（Finesse），从而提升了解释的质量与一致性。使用LLM（Mistral、Llama、Gemma）和PLM（mBART、mT5）进行的实验证实了该框架在生成连贯、上下文相关解释方面的有效性。这种可扩展的方法不仅有助于对抗错误信息，还将自动化解释生成扩展到了低资源语言。

0

相关内容

新闻，是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体，是反映时代的一种文体。新闻概念有广义与狭义之分。广义上：除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻，包括消息、通讯、特写、速写（有的将速写纳入特写之列）等等； [3] 狭义上：消息是用概括的叙述方式，以较简明扼要的文字，迅速及时地报道附近新近发生的、有价值的事实，使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分，后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

13+阅读 · 2025年7月3日

《综述：生成式人工智能对虚假新闻的影响》

《综述：生成式人工智能对虚假新闻的影响》

专知会员服务

34+阅读 · 2024年4月13日

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

56+阅读 · 2023年10月16日

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

专知会员服务

94+阅读 · 2022年6月30日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

专知会员服务

104+阅读 · 2021年8月16日

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

专知会员服务

79+阅读 · 2020年2月12日

如何用AI技术治理假新闻泛滥？看ASU大学舒凯等学者这篇《挖掘虚假信息和假新闻:概念、方法和最新进展》研究综述

如何用AI技术治理假新闻泛滥？看ASU大学舒凯等学者这篇《挖掘虚假信息和假新闻:概念、方法和最新进展》研究综述

专知会员服务

54+阅读 · 2020年1月11日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【论文笔记】用于新闻推荐的深度感知网络（DKN）

【论文笔记】用于新闻推荐的深度感知网络（DKN）

专知

17+阅读 · 2019年10月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

实践 | 如何使用深度学习为照片自动生成文本描述？

实践 | 如何使用深度学习为照片自动生成文本描述？

七月在线实验室

10+阅读 · 2018年5月21日

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

专知

18+阅读 · 2018年4月2日

抗噪、抗假频叠前地震数据插值方法研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

StoryLensEdu: Personalized Learning Report Generation through Narrative-Driven Multi-Agent Systems

Arxiv

0+阅读 · 2月19日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

From Perceptions To Evidence: Detecting AI-Generated Content In Turkish News Media With A Fine-Tuned Bert Classifier

Arxiv

0+阅读 · 2月13日

Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

Enhancing Fake-News Detection with Node-Level Topological Features

Arxiv

0+阅读 · 2月10日

Calibrating Generative AI to Produce Realistic Essays for Data Augmentation

Arxiv

0+阅读 · 2月6日

DPO Unchained: Your Training Algorithm is Secretly Disentangled in Human Choice Theory

Arxiv

0+阅读 · 2月4日

VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding

Arxiv

0+阅读 · 1月29日

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Arxiv

0+阅读 · 1月22日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

相关VIP内容

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

13+阅读 · 2025年7月3日

《综述：生成式人工智能对虚假新闻的影响》

《综述：生成式人工智能对虚假新闻的影响》

专知会员服务

34+阅读 · 2024年4月13日

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

56+阅读 · 2023年10月16日

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

XAI实用技术有哪些？普渡大学SIGMOD2022最新《可解释人工智能》教程，130+PPT阐述XAI的基础、应用、机会，附视频

专知会员服务

94+阅读 · 2022年6月30日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

反事实如何理解？看这份华为KDD2021《反事实解释及在XAI中的应用》教程，附143页Slides

专知会员服务

104+阅读 · 2021年8月16日

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

专知会员服务

79+阅读 · 2020年2月12日

如何用AI技术治理假新闻泛滥？看ASU大学舒凯等学者这篇《挖掘虚假信息和假新闻:概念、方法和最新进展》研究综述

如何用AI技术治理假新闻泛滥？看ASU大学舒凯等学者这篇《挖掘虚假信息和假新闻:概念、方法和最新进展》研究综述

专知会员服务

54+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

【WWW2020-清华大学】图增强表示学习的新闻推荐,Graph Enhanced RepresentationLearning

专知

34+阅读 · 2020年4月4日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【论文笔记】用于新闻推荐的深度感知网络（DKN）

【论文笔记】用于新闻推荐的深度感知网络（DKN）

专知

17+阅读 · 2019年10月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

实践 | 如何使用深度学习为照片自动生成文本描述？

实践 | 如何使用深度学习为照片自动生成文本描述？

七月在线实验室

10+阅读 · 2018年5月21日

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

专知

18+阅读 · 2018年4月2日

相关论文

StoryLensEdu: Personalized Learning Report Generation through Narrative-Driven Multi-Agent Systems

Arxiv

0+阅读 · 2月19日

DependencyAI: Detecting AI Generated Text through Dependency Parsing

Arxiv

0+阅读 · 2月17日

From Perceptions To Evidence: Detecting AI-Generated Content In Turkish News Media With A Fine-Tuned Bert Classifier

Arxiv

0+阅读 · 2月13日

Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

Enhancing Fake-News Detection with Node-Level Topological Features

Arxiv

0+阅读 · 2月10日

Calibrating Generative AI to Produce Realistic Essays for Data Augmentation

Arxiv

0+阅读 · 2月6日

DPO Unchained: Your Training Algorithm is Secretly Disentangled in Human Choice Theory

Arxiv

0+阅读 · 2月4日

VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding

Arxiv

0+阅读 · 1月29日

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Arxiv

0+阅读 · 1月22日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

相关基金

抗噪、抗假频叠前地震数据插值方法研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员