Small language models (SLMs) enable low-cost, private, on-device inference, but they often fail on problems that require specialized domain knowledge or multi-step reasoning. Existing approaches for improving reasoning either rely on scale (e.g., chain-of-thought prompting), require task-specific training that limits reuse and generality (e.g., distillation), or retrieve unstructured information that still leaves the SLM to determine an appropriate reasoning strategy. We propose instruction retrieval, an inference-time intervention that augments an SLM with structured, reusable reasoning procedures rather than raw passages. We construct an Instruction Corpus by clustering similar training questions and using a teacher model to generate generalizable guides that pair domain background with explicit step-by-step procedures. At inference, the SLM retrieves the instructions most relevant to a given query and executes the associated procedures without any additional fine-tuning. Across three challenging domains: medicine, law, and mathematics, instruction retrieval yields consistent gains for models with at least 3B parameters, improving accuracy by 9.4%, 7.9%, and 5.1%, respectively, with the strongest 14B model surpassing GPT-4o's zero-shot performance on knowledge-intensive tasks.


翻译:小型语言模型(SLMs)能够实现低成本、私有化、设备端的推理,但在需要专业领域知识或多步推理的问题上往往表现不佳。现有改进推理能力的方法要么依赖模型规模(如思维链提示),要么需要特定任务训练从而限制了复用性和泛化性(如知识蒸馏),或者检索非结构化信息,这仍将确定合适推理策略的任务留给了SLM。我们提出指令检索,一种推理时干预方法,它通过结构化的、可复用的推理程序而非原始文本来增强SLM。我们通过聚类相似训练问题,并利用教师模型生成可泛化的指导指南(将领域背景知识与明确的逐步程序相结合),构建了一个指令语料库。在推理时,SLM检索与给定查询最相关的指令,并执行相关程序,无需任何额外的微调。在医学、法律和数学这三个具有挑战性的领域中,指令检索为参数量至少为3B的模型带来了持续的性能提升,准确率分别提高了9.4%、7.9%和5.1%,其中最强的14B模型在知识密集型任务上超越了GPT-4o的零样本性能。

0
下载
关闭预览

相关内容

超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员