Large Language Models (LLMs) are popular for their impressive abilities, but the need for model-specific fine-tuning or task-specific prompt engineering can hinder their generalization. We propose UPRISE (Universal Prompt Retrieval for Improving zero-Shot Evaluation), which tunes a lightweight and versatile retriever that automatically retrieves prompts for a given zero-shot task input. Specifically, we demonstrate universality in a cross-task and cross-model scenario: the retriever is tuned on a diverse set of tasks, but tested on unseen task types; we use a small frozen LLM, GPT-Neo-2.7B, for tuning the retriever, but test the retriever on different LLMs of much larger scales, such as BLOOM-7.1B, OPT-66B and GPT3-175B. Additionally, we show that UPRISE mitigates the hallucination problem in our experiments with ChatGPT, suggesting its potential to improve even the strongest LLMs. Our model and code are available at https://github.com/microsoft/LMOps.


翻译:大型语言模型(LLMs)因其卓越能力而广受欢迎,但模型特定的微调或任务特定的提示工程可能限制其泛化性。我们提出UPRISE(通用提示检索提升零样本评估),该方法训练了一个轻量级且多功能的检索器,可自动为给定零样本任务输入检索提示。具体而言,我们在跨任务和跨模型场景中证明了其通用性:检索器在多样任务集上训练,但在未见任务类型上测试;我们使用小型冻结LLM(GPT-Neo-2.7B)训练检索器,但将其应用于不同规模更大的LLM(如BLOOM-7.1B、OPT-66B和GPT3-175B)进行测试。此外,实验表明UPRISE能缓解ChatGPT中的幻觉问题,表明其具有改进最强LLMs的潜力。我们的模型和代码开源在https://github.com/microsoft/LMOps。

0
下载
关闭预览

相关内容

百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
32+阅读 · 2022年3月12日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
谷歌&HuggingFace| 零样本能力最强的语言模型结构
夕小瑶的卖萌屋
0+阅读 · 2022年6月23日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月10日
Arxiv
14+阅读 · 2022年5月6日
VIP会员
最新内容
《美军条令:作战伤员后送保障》
专知会员服务
0+阅读 · 6分钟前
《美空军条令出版物 4-0,维持》
专知会员服务
0+阅读 · 12分钟前
《基于仿真的空军任务规划优化》
专知会员服务
0+阅读 · 23分钟前
CVPR 2026教程:统一多模态模型走向收敛之路
专知会员服务
4+阅读 · 6月8日
《人工智能在网络防御中的机遇》
专知会员服务
6+阅读 · 6月8日
认知战:定义与能力发展
专知会员服务
5+阅读 · 6月8日
相关VIP内容
百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
32+阅读 · 2022年3月12日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员