NRGPT：一种基于能量的GPT替代方案 (NRGPT: An Energy-based Alternative for GPT) - 专知论文

会员服务 ·

0

过拟合 · 拟合 · 语言建模 · 生成式预训练 · 预训练Transformer ·

NRGPT: An Energy-based Alternative for GPT

翻译：NRGPT：一种基于能量的GPT替代方案

Nima Dehmamy,Benjamin Hoover,Bishwajit Saha,Leo Kozachkov,Jean-Jacques Slotine,Dmitry Krotov

from arxiv, Accepted to ICLR 2026 main conference

Generative Pre-trained Transformer (GPT) architectures are the most popular design for language modeling. Energy-based modeling is a different paradigm that views inference as a dynamical process operating on an energy landscape. We propose a minimal modification of the GPT setting to unify it with the EBM framework. The inference step of our model, which we call eNeRgy-GPT (NRGPT), is conceptualized as an exploration of the tokens on the energy landscape. We prove, and verify empirically, that under certain circumstances this exploration becomes gradient descent, although they don't necessarily lead to the best performing models. We demonstrate that our model performs well for simple language (Shakespeare dataset), algebraic ListOPS tasks, and richer settings such as OpenWebText language modeling. We also observe that our models may be more resistant to overfitting, doing so only during very long training.

翻译：生成式预训练Transformer（GPT）架构是语言建模中最流行的设计。基于能量的建模是一种不同的范式，它将推理视为在能量景观上运行的动态过程。我们提出对GPT设置进行最小修改，以将其与EBM框架统一起来。我们模型的推理步骤（我们称之为eNeRgy-GPT（NRGPT））被概念化为在能量景观上对词元的探索。我们证明并在经验上验证，在某些情况下，这种探索会变为梯度下降，尽管它们不一定能产生性能最佳的模型。我们证明，我们的模型在简单语言（莎士比亚数据集）、代数ListOPS任务以及更丰富的设置（如OpenWebText语言建模）中表现良好。我们还观察到，我们的模型可能更抗过拟合，仅在非常长的训练过程中才会出现过拟合。

0

相关内容

过拟合

过拟合，在AI领域多指机器学习得到模型太过复杂，导致在训练集上表现很好，然而在测试集上却不尽人意。过拟合（over-fitting）也称为过学习，它的直观表现是算法在训练集上表现好，但在测试集上表现不好，泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差，在训练时复杂的模型将抽样误差也进行了拟合导致的。

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

专知会员服务

99+阅读 · 2023年9月30日

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

专知会员服务

136+阅读 · 2023年5月24日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知会员服务

112+阅读 · 2023年4月12日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

专知会员服务

169+阅读 · 2023年3月3日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

专知会员服务

199+阅读 · 2023年2月17日

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

专知会员服务

120+阅读 · 2022年8月15日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于调制信号窗内模型的电力系统动态相量测量误差分析及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于演化博弈的智能电网供需动态耦合优化及政策分析

国家自然科学基金

7+阅读 · 2014年12月31日

Turn: A Language for Agentic Computation

Arxiv

0+阅读 · 3月7日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

Algebraic Quantum Intelligence: A New Framework for Reproducible Machine Creativity

Arxiv

0+阅读 · 2月15日

TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

Arxiv

0+阅读 · 2月13日

Towards EnergyGPT: A Large Language Model Specialized for the Energy Sector

Arxiv

0+阅读 · 2月7日

A Parallel Alternative for Energy-Efficient Neural Network Training and Inferencing

Arxiv

0+阅读 · 2月6日

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Arxiv

0+阅读 · 2月5日

Towards Green AI: Decoding the Energy of LLM Inference in Software Development

Arxiv

0+阅读 · 2月5日

Opt4GPTQ: Co-Optimizing Memory and Computation for 4-bit GPTQ Quantized LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月5日

Patterns for a New Generation: AI and Agents

Patterns for a New Generation: AI and Agents

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

生成式预训练

预训练Transformer

最新内容

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

7+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

6+阅读 · 4月16日

相关VIP内容

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

专知会员服务

99+阅读 · 2023年9月30日

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

专知会员服务

136+阅读 · 2023年5月24日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知会员服务

112+阅读 · 2023年4月12日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

专知会员服务

169+阅读 · 2023年3月3日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

专知会员服务

199+阅读 · 2023年2月17日

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

专知会员服务

120+阅读 · 2022年8月15日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

（中文）AUKUS第二支柱中的人工智能与自主性方案

《反小型无人机系统的雷达高度估计相干干扰研究》60页

（中文）以机器速度作战：来自Maven特遣队主任的见解

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

相关论文

Turn: A Language for Agentic Computation

Arxiv

0+阅读 · 3月7日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

Algebraic Quantum Intelligence: A New Framework for Reproducible Machine Creativity

Arxiv

0+阅读 · 2月15日

TriGen: NPU Architecture for End-to-End Acceleration of Large Language Models based on SW-HW Co-Design

Arxiv

0+阅读 · 2月13日

Towards EnergyGPT: A Large Language Model Specialized for the Energy Sector

Arxiv

0+阅读 · 2月7日

A Parallel Alternative for Energy-Efficient Neural Network Training and Inferencing

Arxiv

0+阅读 · 2月6日

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Arxiv

0+阅读 · 2月5日

Towards Green AI: Decoding the Energy of LLM Inference in Software Development

Arxiv

0+阅读 · 2月5日

Opt4GPTQ: Co-Optimizing Memory and Computation for 4-bit GPTQ Quantized LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月5日

Patterns for a New Generation: AI and Agents

Patterns for a New Generation: AI and Agents

Arxiv

0+阅读 · 2月4日

相关基金

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于调制信号窗内模型的电力系统动态相量测量误差分析及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于演化博弈的智能电网供需动态耦合优化及政策分析

国家自然科学基金

7+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员