Large language models (LLMs) are deployed in a wide variety of user-facing applications. Typically, these deployments have some specific purpose, like answering questions grounded on documentation or acting as coding assistants, but they require general language understanding. In such deployments, LLMs should respond only to queries that align with the intended purpose and reject all other requests, such as generating poetry or answering questions about physics, a task we refer to as `scoping'. We conduct a comprehensive empirical evaluation of various methods, ranging from prompting, fine-tuning to preference learning and the recently proposed general alignment technique known as Circuit Breakers (CB). Across three families of language models and a broad variety of tasks, we show that it is possible to scope language models. We examine scoping for multiple topics, and fine-grained topics. We ablate diversity of irrelevant queries, layer different techniques, conduct adversarial evaluations and more. Among other results, we find that when diverse examples of irrelevant queries are available, simple supervised fine-tuning produces the best results, but when such diversity is low, Circuit Breakers perform quite well. One can often get the benefits of both methods by layering them in succession. We intend our study to serve as a practitioner's guide to scoping LLMs.


翻译:大型语言模型(LLMs)已被广泛应用于面向用户的各种应用中。通常,这些部署具有特定的目的,例如基于文档回答问题或充当编程助手,但它们需要具备通用的语言理解能力。在此类部署中,LLMs应仅响应符合预期目的的查询,并拒绝所有其他请求,例如生成诗歌或回答物理问题,我们将此任务称为“范围限定”。我们对多种方法进行了全面的实证评估,包括提示工程、微调、偏好学习以及最近提出的通用对齐技术——断路器(Circuit Breakers,CB)。通过对三个系列的语言模型和广泛的任务进行测试,我们证明了缩小语言模型的应用范围是可行的。我们研究了多主题和细粒度主题的范围限定,分析了无关查询的多样性,对不同技术进行了分层组合,并进行了对抗性评估等。研究结果表明,当存在多样化的无关查询示例时,简单的监督微调效果最佳;而当此类多样性较低时,断路器技术表现相当出色。通过依次分层应用这两种方法,通常可以兼得两者的优势。我们希望本研究能为实践者提供关于限定LLMs应用范围的实用指南。

0
下载
关闭预览

相关内容

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
专知会员服务
22+阅读 · 2021年10月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月24日
VIP会员
相关VIP内容
【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
专知会员服务
22+阅读 · 2021年10月8日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员