We present MTRAG-UN, a benchmark for exploring open challenges in multi-turn retrieval augmented generation, a popular use of large language models. We release a benchmark of 666 tasks containing over 2,800 conversation turns across 6 domains with accompanying corpora. Our experiments show that retrieval and generation models continue to struggle on conversations with UNanswerable, UNderspecified, and NONstandalone questions and UNclear responses. Our benchmark is available at https://github.com/IBM/mt-rag-benchmark


翻译:我们提出了MTRAG-UN,这是一个用于探索多轮检索增强生成中开放挑战的基准,后者是大语言模型的一种流行应用。我们发布了一个包含666个任务的基准,涵盖6个领域,包含超过2,800个对话轮次,并附有相应的语料库。我们的实验表明,检索和生成模型在面对包含不可回答、未充分指定、非独立的问题以及不清晰响应的对话时,仍然存在困难。我们的基准可在 https://github.com/IBM/mt-rag-benchmark 获取。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
18+阅读 · 2025年6月8日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
多模态RAG技术:从语义抽取到VLM应用与规模化挑战
专知会员服务
43+阅读 · 2025年1月1日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
专知会员服务
58+阅读 · 2024年12月10日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员