The DRAGUN Track at TREC 2025 targets the growing need for effective support tools that help users evaluate the trustworthiness of online news. We describe the UR_Trecking system submitted for both Task 1 (critical question generation) and Task 2 (retrieval-augmented trustworthiness reporting). Our approach combines LLM-based question generation with semantic filtering, diversity enforcement using clustering, and several query expansion strategies (including reasoning-based Chain-of-Thought expansion) to retrieve relevant evidence from the MS MARCO V2.1 segmented corpus. Retrieved documents are re-ranked using a monoT5 model and filtered using an LLM relevance judge together with a domain-level trustworthiness dataset. For Task 2, selected evidence is synthesized by an LLM into concise trustworthiness reports with citations. Results from the official evaluation indicate that Chain-of-Thought query expansion and re-ranking substantially improve both relevance and domain trust compared to baseline retrieval, while question-generation performance shows moderate quality with room for improvement. We conclude by outlining key challenges encountered and suggesting directions for enhancing robustness and trustworthiness assessment in future iterations of the system.


翻译:TREC 2025 的 DRAGUN 赛道旨在解决日益增长的对有效支持工具的需求,以帮助用户评估在线新闻的可信度。我们描述了提交给任务1(关键问题生成)和任务2(检索增强的可信度报告)的 UR_Trecking 系统。我们的方法结合了基于大语言模型的问题生成与语义过滤、基于聚类的多样性增强,以及多种查询扩展策略(包括基于推理的思维链扩展),以从 MS MARCO V2.1 分段语料库中检索相关证据。检索到的文档使用 monoT5 模型进行重排序,并利用大语言模型作为相关性评估器,结合领域级可信度数据集进行过滤。对于任务2,选定的证据由大语言模型综合成简洁的可信度报告并附有引用。官方评估结果表明,与基线检索相比,思维链查询扩展和重排序显著提升了相关性和领域可信度,而问题生成性能表现中等,仍有改进空间。最后,我们总结了遇到的主要挑战,并提出了在系统未来迭代中增强鲁棒性和可信度评估的方向。

0
下载
关闭预览

相关内容

多维度对特定行业主题进行系统性分析、概括与总结。
Andrej Karpathy:2025 年 LLM 年度回顾(2025 LLM Year in Review)
专知会员服务
34+阅读 · 2025年12月20日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
ICRA 2020 中的SLAM论文汇总(一)VSLAM
计算机视觉life
25+阅读 · 2020年8月18日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Arxiv
0+阅读 · 3月11日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
1+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
20+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
3+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
16+阅读 · 5月25日
相关VIP内容
Andrej Karpathy:2025 年 LLM 年度回顾(2025 LLM Year in Review)
专知会员服务
34+阅读 · 2025年12月20日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员