When posed with prompts that permit a large number of valid answers, comprehensively generating them is the first step towards satisfying a wide range of users. In this paper, we study methods to elicit a comprehensive set of valid responses. To evaluate this, we introduce \textbf{diversity coverage}, a metric that measures the total quality scores assigned to each \textbf{unique} answer in the predicted answer set relative to the best possible answer set with the same number of answers. Using this metric, we evaluate 18 LLMs, finding no single model dominates at generating diverse responses to a wide range of open-ended prompts. Yet, per each prompt, there exists a model that outperforms all other models significantly at generating a diverse answer set. Motivated by this finding, we introduce a router that predicts the best model for each query. On NB-Wildchat, our trained router outperforms the single best model baseline (26.3% vs $23.8%). We further show generalization to an out-of-domain dataset (NB-Curated) as well as different answer-generation prompting strategies. Our work lays foundation for studying generating comprehensive answers when we have access to a suite of models.


翻译:面对允许大量有效答案的提示时,全面生成这些答案是满足广泛用户需求的首要步骤。本文研究了获取全面有效回答集的方法。为评估这一点,我们引入了**多样性覆盖度**这一指标,用于衡量预测答案集中每个**唯一**答案相较于相同数量答案的最优可能答案集所获得的总质量分数。通过该指标,我们评估了18个大语言模型,发现没有单一模型能在各类开放式提示的多样化响应生成中占据主导地位。然而对于每个提示而言,总存在某个模型在生成多样化答案集方面显著优于其他所有模型。基于这一发现,我们提出了一种路由学习器,能够预测每个查询对应的最优模型。在NB-Wildchat数据集上,我们训练的路由器性能优于单一最优模型基线(26.3% vs 23.8%)。我们进一步证明该方法可泛化至领域外数据集(NB-Curated)以及不同的答案生成提示策略。本研究为在模型集群环境下研究全面答案生成奠定了基础。

0
下载
关闭预览

相关内容

《多智能体学习中的神经多样性研究》最新200页
专知会员服务
27+阅读 · 2025年9月12日
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
21+阅读 · 2025年8月22日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【NeurIPS 2023】Mix-ME:多智能体学习的质量多样性
专知会员服务
17+阅读 · 2023年11月6日
专知会员服务
26+阅读 · 2021年5月23日
专知会员服务
37+阅读 · 2021年4月18日
小样本学习(Few-shot Learning)综述
机器之心
18+阅读 · 2019年4月1日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月4日
VIP会员
相关主题
最新内容
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
3+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
7+阅读 · 6月1日
超越网格:作战环境对炮兵的影响
专知会员服务
3+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员