Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.


翻译:思维链(Chain-of-Thought, CoT)提示能够有效激发大型语言模型(LLMs)执行复杂的多步推理。例如,在MultiArith数据集的每个输入查询中简单添加CoT指令“让我们逐步思考”后,GPT-3的准确率从17.7%提升至78.7%。然而,对于更近期的指令微调(Instruction Finetuned, IFT)LLMs(如ChatGPT),CoT是否仍然有效尚不明确。令人意外的是,在ChatGPT上,CoT对某些任务(如算术推理)不再有效,但对其他推理任务仍保持效力。此外,在前一类任务中,ChatGPT通常能取得最佳性能,且即使在未受指令的情况下也能生成CoT。因此,ChatGPT可能已在包含CoT的这些任务上经过训练,从而记住了该指令,导致即使没有CoT提示,它在处理相同查询时也会隐含地遵循此类指令。我们的分析揭示了IFT引入的指令过拟合/偏差的潜在风险,这在LLMs训练中日益普遍。同时,这暗示了预训练配方的可能泄漏,例如,可以验证某个数据集和指令是否被用于训练ChatGPT。我们的实验报告了ChatGPT在多种推理任务上的新基线结果,并为了解LLMs的剖析、指令记忆化及预训练数据集泄漏提供了新颖见解。

1
下载
关闭预览

相关内容

关于大型语言模型需要知道的8件事
专知会员服务
27+阅读 · 2023年4月3日
百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
ChatGPT如何work的?最新《大型语言模型》综述,51页slides
专知会员服务
162+阅读 · 2023年2月28日
用蛋白语言模型改进蛋白复合物预测
专知会员服务
10+阅读 · 2022年9月25日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
16+阅读 · 2020年8月2日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
关于AI大模型的一点思考和讨论
极市平台
3+阅读 · 2022年11月7日
DeepMind:为什么GPT能为你写诗?
新智元
1+阅读 · 2022年6月3日
赛尔原创@ACL 2022 | e-CARE: 可解释的因果推理数据集
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
29+阅读 · 2017年12月6日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
9+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
关于AI大模型的一点思考和讨论
极市平台
3+阅读 · 2022年11月7日
DeepMind:为什么GPT能为你写诗?
新智元
1+阅读 · 2022年6月3日
赛尔原创@ACL 2022 | e-CARE: 可解释的因果推理数据集
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员