From Questions to Trust Reports: A LLM-IR Framework for the TREC 2025 DRAGUN Track - 专知论文

会员服务 ·

0

报告 · 语言模型 · IR · 系统 · 查询扩展 ·

From Questions to Trust Reports: A LLM-IR Framework for the TREC 2025 DRAGUN Track

翻译：从问题到信任报告：面向 TREC 2025 DRAGUN 赛道的 LLM-IR 框架

Ignacy Alwasiak,Kene Nnolim,Jaclyn Thi,Samy Ateia,Markus Bink,Gregor Donabauer,David Elsweiler,Udo Kruschwitz

from arxiv, TREC 2025 Proceedings

The DRAGUN Track at TREC 2025 targets the growing need for effective support tools that help users evaluate the trustworthiness of online news. We describe the UR_Trecking system submitted for both Task 1 (critical question generation) and Task 2 (retrieval-augmented trustworthiness reporting). Our approach combines LLM-based question generation with semantic filtering, diversity enforcement using clustering, and several query expansion strategies (including reasoning-based Chain-of-Thought expansion) to retrieve relevant evidence from the MS MARCO V2.1 segmented corpus. Retrieved documents are re-ranked using a monoT5 model and filtered using an LLM relevance judge together with a domain-level trustworthiness dataset. For Task 2, selected evidence is synthesized by an LLM into concise trustworthiness reports with citations. Results from the official evaluation indicate that Chain-of-Thought query expansion and re-ranking substantially improve both relevance and domain trust compared to baseline retrieval, while question-generation performance shows moderate quality with room for improvement. We conclude by outlining key challenges encountered and suggesting directions for enhancing robustness and trustworthiness assessment in future iterations of the system.

翻译：TREC 2025 的 DRAGUN 赛道旨在解决日益增长的对有效支持工具的需求，以帮助用户评估在线新闻的可信度。我们描述了提交给任务1（关键问题生成）和任务2（检索增强的可信度报告）的 UR_Trecking 系统。我们的方法结合了基于大语言模型的问题生成与语义过滤、基于聚类的多样性增强，以及多种查询扩展策略（包括基于推理的思维链扩展），以从 MS MARCO V2.1 分段语料库中检索相关证据。检索到的文档使用 monoT5 模型进行重排序，并利用大语言模型作为相关性评估器，结合领域级可信度数据集进行过滤。对于任务2，选定的证据由大语言模型综合成简洁的可信度报告并附有引用。官方评估结果表明，与基线检索相比，思维链查询扩展和重排序显著提升了相关性和领域可信度，而问题生成性能表现中等，仍有改进空间。最后，我们总结了遇到的主要挑战，并提出了在系统未来迭代中增强鲁棒性和可信度评估的方向。

0

相关内容

多维度对特定行业主题进行系统性分析、概括与总结。

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

13+阅读 · 5月31日

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

14+阅读 · 5月1日

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

专知会员服务

34+阅读 · 2025年12月20日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

《国防指挥控制：建立全面框架是取得进展的关键》2025最新37页报告

《国防指挥控制：建立全面框架是取得进展的关键》2025最新37页报告

专知会员服务

40+阅读 · 2025年4月11日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

《利用自适应多功能雷达实现电子支援措施调度和阵列分集》2022最新57页技术报告，加拿大国防研究与发展部

《利用自适应多功能雷达实现电子支援措施调度和阵列分集》2022最新57页技术报告，加拿大国防研究与发展部

专知会员服务

28+阅读 · 2023年1月13日

推荐！《用于对抗性活动建模的数据合成和图生成》2022最新工程报告，美国西北太平洋国家实验室（PNNL）

推荐！《用于对抗性活动建模的数据合成和图生成》2022最新工程报告，美国西北太平洋国家实验室（PNNL）

专知会员服务

35+阅读 · 2022年9月18日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

专知

67+阅读 · 2022年10月29日

智库兰德2022最新发布《2035年新兴技术：基于典型场景的未来军事突发事件技术评估》118页研究报告

智库兰德2022最新发布《2035年新兴技术：基于典型场景的未来军事突发事件技术评估》118页研究报告

专知

53+阅读 · 2022年10月13日

148页！最新报告《先进作战管理系统：美国空军部面临的需求、进展、挑战和机遇（2022）》，美国国家科学、工程和医学研究院

148页！最新报告《先进作战管理系统：美国空军部面临的需求、进展、挑战和机遇（2022）》，美国国家科学、工程和医学研究院

专知

127+阅读 · 2022年5月24日

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

专知

77+阅读 · 2022年4月20日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

69+阅读 · 2022年4月9日

ICRA 2020 中的SLAM论文汇总（一）VSLAM

ICRA 2020 中的SLAM论文汇总（一）VSLAM

计算机视觉life

25+阅读 · 2020年8月18日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于低秩与稀疏矩阵分离的视频合成孔径雷达 GMTI信号处理技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

胶质瘤侵袭过程中DNMT1沉默miR-134与ERK信号通路自激活的表观新机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向车联网的道路交通事故链动态演变规律及其阻断方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

13+阅读 · 2014年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

LLM Retrieval for Stable and Predictable Ad Recommendations

Arxiv

0+阅读 · 5月21日

mdok-style at SemEval-2026 Task 10: Finetuning LLMs for Conspiracy Detection

Arxiv

0+阅读 · 5月4日

A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence

Arxiv

0+阅读 · 5月1日

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

Arxiv

0+阅读 · 4月29日

LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

Arxiv

0+阅读 · 4月28日

From Context to Rules: Toward Unified Detection Rule Generation

Arxiv

0+阅读 · 4月13日

LLMs, You Can Evaluate It! Design of Multi-perspective Report Evaluation for Security Operation Centers

Arxiv

0+阅读 · 4月8日

Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators

Arxiv

0+阅读 · 4月8日

TRACE-Bot: Detecting Emerging LLM-Driven Social Bots via Implicit Semantic Representations and AIGC-Enhanced Behavioral Patterns

Arxiv

0+阅读 · 4月2日

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

7+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

4+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

6+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

13+阅读 · 5月31日

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

14+阅读 · 5月1日

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

专知会员服务

34+阅读 · 2025年12月20日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

《国防指挥控制：建立全面框架是取得进展的关键》2025最新37页报告

《国防指挥控制：建立全面框架是取得进展的关键》2025最新37页报告

专知会员服务

40+阅读 · 2025年4月11日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

《利用自适应多功能雷达实现电子支援措施调度和阵列分集》2022最新57页技术报告，加拿大国防研究与发展部

《利用自适应多功能雷达实现电子支援措施调度和阵列分集》2022最新57页技术报告，加拿大国防研究与发展部

专知会员服务

28+阅读 · 2023年1月13日

推荐！《用于对抗性活动建模的数据合成和图生成》2022最新工程报告，美国西北太平洋国家实验室（PNNL）

推荐！《用于对抗性活动建模的数据合成和图生成》2022最新工程报告，美国西北太平洋国家实验室（PNNL）

专知会员服务

35+阅读 · 2022年9月18日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

【美海军系统工程顶点分析报告】《针对混合部队2025 的任务工程》2022美国海军130页论文

专知

67+阅读 · 2022年10月29日

智库兰德2022最新发布《2035年新兴技术：基于典型场景的未来军事突发事件技术评估》118页研究报告

智库兰德2022最新发布《2035年新兴技术：基于典型场景的未来军事突发事件技术评估》118页研究报告

专知

53+阅读 · 2022年10月13日

148页！最新报告《先进作战管理系统：美国空军部面临的需求、进展、挑战和机遇（2022）》，美国国家科学、工程和医学研究院

148页！最新报告《先进作战管理系统：美国空军部面临的需求、进展、挑战和机遇（2022）》，美国国家科学、工程和医学研究院

专知

127+阅读 · 2022年5月24日

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

专知

77+阅读 · 2022年4月20日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

69+阅读 · 2022年4月9日

ICRA 2020 中的SLAM论文汇总（一）VSLAM

ICRA 2020 中的SLAM论文汇总（一）VSLAM

计算机视觉life

25+阅读 · 2020年8月18日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

相关论文

LLM Retrieval for Stable and Predictable Ad Recommendations

Arxiv

0+阅读 · 5月21日

mdok-style at SemEval-2026 Task 10: Finetuning LLMs for Conspiracy Detection

Arxiv

0+阅读 · 5月4日

A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence

Arxiv

0+阅读 · 5月1日

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

Arxiv

0+阅读 · 4月29日

LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

Arxiv

0+阅读 · 4月28日

From Context to Rules: Toward Unified Detection Rule Generation

Arxiv

0+阅读 · 4月13日

LLMs, You Can Evaluate It! Design of Multi-perspective Report Evaluation for Security Operation Centers

Arxiv

0+阅读 · 4月8日

Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators

Arxiv

0+阅读 · 4月8日

TRACE-Bot: Detecting Emerging LLM-Driven Social Bots via Implicit Semantic Representations and AIGC-Enhanced Behavioral Patterns

Arxiv

0+阅读 · 4月2日

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

Arxiv

0+阅读 · 3月26日

相关基金

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于低秩与稀疏矩阵分离的视频合成孔径雷达 GMTI信号处理技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

胶质瘤侵袭过程中DNMT1沉默miR-134与ERK信号通路自激活的表观新机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向车联网的道路交通事故链动态演变规律及其阻断方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

13+阅读 · 2014年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员