When do you need Chain-of-Thought Prompting for ChatGPT? - 专知论文

会员服务 ·

0

CoT · ChatGPT · 数据集 · 时变 · 预训练 ·

2023 年 4 月 18 日

When do you need Chain-of-Thought Prompting for ChatGPT?

翻译：何时需要为ChatGPT使用思维链提示？

Jiuhai Chen,Lichang Chen,Heng Huang,Tianyi Zhou

Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.

翻译：思维链（Chain-of-Thought, CoT）提示能有效激发大语言模型（LLMs）复杂多步推理能力。例如，仅需在MultiArith数据集的每个输入查询中添加CoT指令"让我们一步步思考"，GPT-3的准确率即可从17.7%提升至78.7%。然而，对于更近期的指令微调（IFT）LLMs（如ChatGPT），CoT是否仍然有效尚不明确。令人惊讶的是，在ChatGPT上，CoT对算术推理等特定任务不再有效，但对其他推理任务仍保持有效性。此外，在前述任务中，ChatGPT通常能达到最佳性能，且无需显式指示即可生成CoT。因此，ChatGPT很可能已在这些任务上经过CoT训练并记住了该指令，从而在应用于相同查询时（即使没有CoT）隐式遵循该指令。我们的分析揭示了IFT引入的指令可能带来过拟合/偏见风险，这一问题在LLMs训练中日益普遍。同时，这暗示了预训练配方可能存在泄漏——例如，可验证某数据集和指令是否被用于训练ChatGPT。实验报告了ChatGPT在多种推理任务上的新基准结果，并提出了关于LLM特性刻画、指令记忆化和预训练数据集泄漏的新见解。

0

相关内容

CoT

大模型的涌现能力介绍

大模型的涌现能力介绍

专知会员服务

174+阅读 · 2023年5月16日

【2023新书】CHATGPT提示掌握:掌握有效提示的完整指南, 106页pdf

【2023新书】CHATGPT提示掌握:掌握有效提示的完整指南, 106页pdf

专知会员服务

167+阅读 · 2023年5月1日

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

专知会员服务

104+阅读 · 2023年4月28日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

专知会员服务

51+阅读 · 2023年4月22日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知会员服务

196+阅读 · 2023年4月12日

ChatGPT大模型全栈技术讲解！霍普金斯最新《NLP：自监督模型》2023课程全面讲解预训练指令学习和RLHF等技术，附讲义

ChatGPT大模型全栈技术讲解！霍普金斯最新《NLP：自监督模型》2023课程全面讲解预训练指令学习和RLHF等技术，附讲义

专知会员服务

108+阅读 · 2023年4月8日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

28+阅读 · 2023年4月13日

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

ACL‘22杰出论文：Prompt范式有bug！

ACL‘22杰出论文：Prompt范式有bug！

夕小瑶的卖萌屋

2+阅读 · 2022年7月10日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

Marcks调节斑马鱼原肠胚形成中Bmp分泌和转运的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

以FGF8为靶点的前列腺癌分子显像与治疗研究

国家自然科学基金

0+阅读 · 2014年12月31日

GTAT4和Myocardin相互作用调控心肌肥厚

国家自然科学基金

0+阅读 · 2014年12月31日

BNT基无铅压电陶瓷的低场诱发形变性能调控

国家自然科学基金

0+阅读 · 2013年12月31日

Kepler候选多行星系统的潮汐效应研究

国家自然科学基金

0+阅读 · 2013年12月31日

缺氧细胞中mTORC1通过下调EF-Tumt表达引起线粒体损害的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

mTOR激活对吗啡耐受的调控及其分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

PARP-1介导精氨酸酶II调节内皮功能与动脉粥样硬化分子机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

串联反应合成含氟含硫吡唑杂环化合物的方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

胰腺癌细胞中c-Src激酶调控Notch-1活化的分子机制

国家自然科学基金

0+阅读 · 2008年12月31日

Multilingual Conceptual Coverage in Text-to-Image Models

Arxiv

0+阅读 · 2023年6月2日

Active Code Learning: Benchmarking Sample-Efficient Training of Code Models

Arxiv

0+阅读 · 2023年6月2日

Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective

Arxiv

0+阅读 · 2023年6月1日

Grounding Language Models to Images for Multimodal Inputs and Outputs

Arxiv

0+阅读 · 2023年6月1日

ChatGPT as a Text Simplification Tool to Remove Bias

Arxiv

0+阅读 · 2023年6月1日

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters

Arxiv

0+阅读 · 2023年6月1日

What does the Failure to Reason with "Respectively" in Zero/Few-Shot Settings Tell Us about Language Models?

Arxiv

0+阅读 · 2023年5月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

Arxiv

34+阅读 · 2023年3月7日

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

Arxiv

33+阅读 · 2023年2月18日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

大模型的涌现能力介绍

大模型的涌现能力介绍

专知会员服务

174+阅读 · 2023年5月16日

【2023新书】CHATGPT提示掌握:掌握有效提示的完整指南, 106页pdf

【2023新书】CHATGPT提示掌握:掌握有效提示的完整指南, 106页pdf

专知会员服务

167+阅读 · 2023年5月1日

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

【吴恩达新课程】ChatGPT提示工程，ChatGPT Prompt Engineering for Developers

专知会员服务

104+阅读 · 2023年4月28日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

大模型如何可信？UCSD Fatemehsadat 《我们能在多大程度上信任大型语言模型?》，46页ppt

专知会员服务

51+阅读 · 2023年4月22日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知会员服务

196+阅读 · 2023年4月12日

ChatGPT大模型全栈技术讲解！霍普金斯最新《NLP：自监督模型》2023课程全面讲解预训练指令学习和RLHF等技术，附讲义

ChatGPT大模型全栈技术讲解！霍普金斯最新《NLP：自监督模型》2023课程全面讲解预训练指令学习和RLHF等技术，附讲义

专知会员服务

108+阅读 · 2023年4月8日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

28+阅读 · 2023年4月13日

论文浅尝 | Language Models (Mostly) Know What They Know

论文浅尝 | Language Models (Mostly) Know What They Know

开放知识图谱

2+阅读 · 2022年11月18日

ACL‘22杰出论文：Prompt范式有bug！

ACL‘22杰出论文：Prompt范式有bug！

夕小瑶的卖萌屋

2+阅读 · 2022年7月10日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

相关论文

Multilingual Conceptual Coverage in Text-to-Image Models

Arxiv

0+阅读 · 2023年6月2日

Active Code Learning: Benchmarking Sample-Efficient Training of Code Models

Arxiv

0+阅读 · 2023年6月2日

Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective

Arxiv

0+阅读 · 2023年6月1日

Grounding Language Models to Images for Multimodal Inputs and Outputs

Arxiv

0+阅读 · 2023年6月1日

ChatGPT as a Text Simplification Tool to Remove Bias

Arxiv

0+阅读 · 2023年6月1日

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters

Arxiv

0+阅读 · 2023年6月1日

What does the Failure to Reason with "Respectively" in Zero/Few-Shot Settings Tell Us about Language Models?

Arxiv

0+阅读 · 2023年5月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

Arxiv

34+阅读 · 2023年3月7日

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

Arxiv

33+阅读 · 2023年2月18日

相关基金

Marcks调节斑马鱼原肠胚形成中Bmp分泌和转运的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

以FGF8为靶点的前列腺癌分子显像与治疗研究

国家自然科学基金

0+阅读 · 2014年12月31日

GTAT4和Myocardin相互作用调控心肌肥厚

国家自然科学基金

0+阅读 · 2014年12月31日

BNT基无铅压电陶瓷的低场诱发形变性能调控

国家自然科学基金

0+阅读 · 2013年12月31日

Kepler候选多行星系统的潮汐效应研究

国家自然科学基金

0+阅读 · 2013年12月31日

缺氧细胞中mTORC1通过下调EF-Tumt表达引起线粒体损害的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

mTOR激活对吗啡耐受的调控及其分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

PARP-1介导精氨酸酶II调节内皮功能与动脉粥样硬化分子机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

串联反应合成含氟含硫吡唑杂环化合物的方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

胰腺癌细胞中c-Src激酶调控Notch-1活化的分子机制

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员