We present MTRAG-UN, a benchmark for exploring open challenges in multi-turn retrieval augmented generation, a popular use of large language models. We release a benchmark of 666 tasks containing over 2,800 conversation turns across 6 domains with accompanying corpora. Our experiments show that retrieval and generation models continue to struggle on conversations with UNanswerable, UNderspecified, and NONstandalone questions and UNclear responses. Our benchmark is available at https://github.com/IBM/mt-rag-benchmark


翻译:我们提出了MTRAG-UN,这是一个用于探索多轮检索增强生成中开放挑战的基准,后者是大语言模型的一种流行应用。我们发布了一个包含666个任务的基准,涵盖6个领域,包含超过2,800个对话轮次,并附有相应的语料库。我们的实验表明,检索和生成模型在面对包含不可回答、未充分指定、非独立的问题以及不清晰响应的对话时,仍然存在困难。我们的基准可在 https://github.com/IBM/mt-rag-benchmark 获取。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
18+阅读 · 2025年6月8日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
多模态RAG技术:从语义抽取到VLM应用与规模化挑战
专知会员服务
43+阅读 · 2025年1月1日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
专知会员服务
57+阅读 · 2024年12月10日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 今天6:23
不对称优势上升:自主系统如何强化海上拒止
专知会员服务
1+阅读 · 今天5:51
《人工智能赋能电磁战》(报告)
专知会员服务
2+阅读 · 4月17日
【CMU博士论文】迈向可扩展的开放世界三维感知
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员