$k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference - 专知论文

会员服务 ·

0

上下文 · 最近邻 · 上下文学习 · 近邻 · 训练数据 ·

2023 年 3 月 24 日

$k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference

翻译：$k$NN Prompting：基于无校准最近邻推理的超越上下文学习

Benfeng Xu,Quan Wang,Zhendong Mao,Yajuan Lyu,Qiaoqiao She,Yongdong Zhang

from arxiv, ICLR 2023. Code is available at https://github.com/BenfengXu/KNNPrompting

In-Context Learning (ICL), which formulates target tasks as prompt completion conditioned on in-context demonstrations, has become the prevailing utilization of LLMs. In this paper, we first disclose an actual predicament for this typical usage that it can not scale up with training data due to context length restriction. Besides, existing works have shown that ICL also suffers from various biases and requires delicate calibration treatment. To address both challenges, we advocate a simple and effective solution, $k$NN Prompting, which first queries LLM with training data for distributed representations, then predicts test instances by simply referring to nearest neighbors. We conduct comprehensive experiments to demonstrate its two-fold superiority: 1) Calibration-Free: $k$NN Prompting does not directly align LLM output distribution with task-specific label space, instead leverages such distribution to align test and training instances. It significantly outperforms state-of-the-art calibration-based methods under comparable few-shot scenario. 2) Beyond-Context: $k$NN Prompting can further scale up effectively with as many training data as are available, continually bringing substantial improvements. The scaling trend holds across 10 orders of magnitude ranging from 2 shots to 1024 shots as well as different LLMs scales ranging from 0.8B to 30B. It successfully bridges data scaling into model scaling, and brings new potentials for the gradient-free paradigm of LLM deployment. Code is publicly available.

翻译：上下文学习（In-Context Learning, ICL）将目标任务转化为基于上下文示例的提示补全任务，已成为大语言模型（LLM）的主流应用范式。本文首先揭示该典型用法面临的实际困境：由于上下文长度限制，其无法随训练数据规模扩展。此外，现有研究表明ICL存在多种偏差问题，需要精细的校准处理。为解决上述挑战，我们提出一种简洁高效的解决方案——$k$NN Prompting。该方法首先利用训练数据查询LLM获取分布式表征，随后通过简单参考最近邻来预测测试实例。我们通过全面实验证明其双重优势：1）无校准性：$k$NN Prompting不直接对齐LLM输出分布与任务特定标签空间，而是利用该分布对齐测试实例与训练实例。在可比小样本场景下，其显著优于现有最先进的基于校准的方法。2）超越上下文：$k$NN Prompting可随可用训练数据规模有效扩展，持续带来显著性能提升。该扩展趋势在2-shot至1024-shot的10个数量级范围，以及0.8B至30B的LLM参数量级中均保持一致。该方法成功将数据扩展与模型扩展相融合，为LLM部署的无梯度范式开辟了新可能。代码已开源。

0

相关内容

上下文

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

专知会员服务

46+阅读 · 2023年1月26日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

专知会员服务

42+阅读 · 2021年2月24日

近期必读的七篇AAAI 2021【问答（QA）】相关论文和代码

专知会员服务

55+阅读 · 2021年2月2日

最新《自监督表示学习》报告，70页ppt

最新《自监督表示学习》报告，70页ppt

专知会员服务

86+阅读 · 2020年12月22日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

一文了解prompt learning在计算机视觉领域进展

一文了解prompt learning在计算机视觉领域进展

极市平台

7+阅读 · 2022年11月11日

浅聊对比学习（Contrastive Learning）

浅聊对比学习（Contrastive Learning）

极市平台

3+阅读 · 2022年7月26日

ACL‘22杰出论文：Prompt范式有bug！

ACL‘22杰出论文：Prompt范式有bug！

夕小瑶的卖萌屋

2+阅读 · 2022年7月10日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

Exosome中miR-1281通过组蛋白去乙酰化介导血管新生的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

mRNA甲基化检测概率图模型

国家自然科学基金

2+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

Partial Spread Bent函数与Bent-Negabent函数的构造及密码学性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

液晶自适应光学系统的快速波前处理技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

两类指数和的相关性质及应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于OC-seislet变换的三维叠前复杂地震波场迭代数据插值方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

Riemann-Hilbert方法及若干相关问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

miRNA-16在正常及病理性红细胞分化成熟过程中的表达及功能研究

国家自然科学基金

0+阅读 · 2011年12月31日

无线网络中一些图论与组合优化问题

国家自然科学基金

1+阅读 · 2009年12月31日

Logic and Commonsense-Guided Temporal Knowledge Graph Completion

Arxiv

0+阅读 · 2023年5月15日

Calibration-Aware Bayesian Learning

Arxiv

0+阅读 · 2023年5月12日

Local Causal Discovery for Estimating Causal Effects

Arxiv

0+阅读 · 2023年5月12日

Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation

Arxiv

0+阅读 · 2023年5月12日

Bayesian variance change point detection with credible sets

Arxiv

0+阅读 · 2023年5月10日

CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors

Arxiv

0+阅读 · 2023年5月9日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion

Arxiv

12+阅读 · 2021年4月27日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

VIP会员

文章信息

相关主题

上下文学习

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

专知会员服务

46+阅读 · 2023年1月26日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

专知会员服务

42+阅读 · 2021年2月24日

近期必读的七篇AAAI 2021【问答（QA）】相关论文和代码

专知会员服务

55+阅读 · 2021年2月2日

最新《自监督表示学习》报告，70页ppt

最新《自监督表示学习》报告，70页ppt

专知会员服务

86+阅读 · 2020年12月22日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

一文了解prompt learning在计算机视觉领域进展

一文了解prompt learning在计算机视觉领域进展

极市平台

7+阅读 · 2022年11月11日

浅聊对比学习（Contrastive Learning）

浅聊对比学习（Contrastive Learning）

极市平台

3+阅读 · 2022年7月26日

ACL‘22杰出论文：Prompt范式有bug！

ACL‘22杰出论文：Prompt范式有bug！

夕小瑶的卖萌屋

2+阅读 · 2022年7月10日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

相关论文

Logic and Commonsense-Guided Temporal Knowledge Graph Completion

Arxiv

0+阅读 · 2023年5月15日

Calibration-Aware Bayesian Learning

Arxiv

0+阅读 · 2023年5月12日

Local Causal Discovery for Estimating Causal Effects

Arxiv

0+阅读 · 2023年5月12日

Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation

Arxiv

0+阅读 · 2023年5月12日

Bayesian variance change point detection with credible sets

Arxiv

0+阅读 · 2023年5月10日

CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors

Arxiv

0+阅读 · 2023年5月9日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion

Arxiv

12+阅读 · 2021年4月27日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

相关基金

Exosome中miR-1281通过组蛋白去乙酰化介导血管新生的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

mRNA甲基化检测概率图模型

国家自然科学基金

2+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

Partial Spread Bent函数与Bent-Negabent函数的构造及密码学性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

液晶自适应光学系统的快速波前处理技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

两类指数和的相关性质及应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于OC-seislet变换的三维叠前复杂地震波场迭代数据插值方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

Riemann-Hilbert方法及若干相关问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

miRNA-16在正常及病理性红细胞分化成熟过程中的表达及功能研究

国家自然科学基金

0+阅读 · 2011年12月31日

无线网络中一些图论与组合优化问题

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员