NRGPT: An Energy-based Alternative for GPT - 专知论文

会员服务 ·

0

过拟合 · 拟合 · 语言建模 · 生成式预训练 · 预训练Transformer ·

NRGPT: An Energy-based Alternative for GPT

翻译：NRGPT：一种基于能量的GPT替代方案

Nima Dehmamy,Benjamin Hoover,Bishwajit Saha,Leo Kozachkov,Jean-Jacques Slotine,Dmitry Krotov

from arxiv, Accepted to ICLR 2026 main conference

Generative Pre-trained Transformer (GPT) architectures are the most popular design for language modeling. Energy-based modeling is a different paradigm that views inference as a dynamical process operating on an energy landscape. We propose a minimal modification of the GPT setting to unify it with the EBM framework. The inference step of our model, which we call eNeRgy-GPT (NRGPT), is conceptualized as an exploration of the tokens on the energy landscape. We prove, and verify empirically, that under certain circumstances this exploration becomes gradient descent, although they don't necessarily lead to the best performing models. We demonstrate that our model performs well for simple language (Shakespeare dataset), algebraic ListOPS tasks, and richer settings such as OpenWebText language modeling. We also observe that our models may be more resistant to overfitting, doing so only during very long training.

翻译：生成式预训练Transformer（GPT）架构是语言建模中最流行的设计。基于能量的建模则是一种不同的范式，它将推理视作在能量景观上运行的动态过程。本文提出对GPT设置进行最小修改，以将其与能量基模型框架统一起来。我们所提模型（称为eNeRgy-GPT，NRGPT）的推理步骤被概念化为在能量景观上对词元的探索。我们证明并通过实验验证，在某些条件下，这种探索会变为梯度下降，尽管这并不一定会产生性能最优的模型。我们表明，该模型在简单语言（莎士比亚数据集）、代数ListOPS任务以及更丰富场景（如OpenWebText语言建模）中表现良好。我们还观察到，此类模型可能对过拟合更具抵抗性，仅在极长训练过程中才会出现过拟合现象。

0

相关内容

过拟合

过拟合，在AI领域多指机器学习得到模型太过复杂，导致在训练集上表现很好，然而在测试集上却不尽人意。过拟合（over-fitting）也称为过学习，它的直观表现是算法在训练集上表现好，但在测试集上表现不好，泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差，在训练时复杂的模型将抽样误差也进行了拟合导致的。

【新书】Transformer、BERT和GPT: 包括ChatGPT和提示工程，379页pdf

【新书】Transformer、BERT和GPT: 包括ChatGPT和提示工程，379页pdf

专知会员服务

49+阅读 · 2024年4月21日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

专知会员服务

99+阅读 · 2023年9月30日

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

专知会员服务

136+阅读 · 2023年5月24日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知会员服务

112+阅读 · 2023年4月12日

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

专知会员服务

169+阅读 · 2023年3月3日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

专知会员服务

200+阅读 · 2023年2月17日

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

专知会员服务

120+阅读 · 2022年8月15日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于调制信号窗内模型的电力系统动态相量测量误差分析及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

WISCA: A Lightweight Model Transition Method to Improve LLM Training via Weight Scaling

Arxiv

0+阅读 · 4月22日

Towards EnergyGPT: A Large Language Model Specialized for the Energy Sector

Arxiv

0+阅读 · 4月14日

MoEITS: A Green AI approach for simplifying MoE-LLMs

Arxiv

0+阅读 · 4月12日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

Turn: A Language for Agentic Computation

Arxiv

0+阅读 · 3月7日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

1+阅读 · 2月27日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Arxiv

14+阅读 · 2024年4月15日

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions

Arxiv

54+阅读 · 2023年5月25日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

VIP会员

文章信息

相关主题

生成式预训练

预训练Transformer

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

7+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

4+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

6+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

4+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

8+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

7+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

【新书】Transformer、BERT和GPT: 包括ChatGPT和提示工程，379页pdf

【新书】Transformer、BERT和GPT: 包括ChatGPT和提示工程，379页pdf

专知会员服务

49+阅读 · 2024年4月21日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

选用哪个GPT？华中科大等最新《大型GPT模型》综述，37页pdf详述关于语言、多模态及科学GPT模型

专知会员服务

99+阅读 · 2023年9月30日

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

如何全面了解ChatGPT背后的技术与影响？ 40页最新《GPT: 技术、潜在应用、新挑战和未来方向》综述

专知会员服务

136+阅读 · 2023年5月24日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知会员服务

112+阅读 · 2023年4月12日

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

ChatGPT API开放了怎么用【2023新书】GPT-3:使用OpenAI API构建NLP产品的终极指南，151页pdf

专知会员服务

169+阅读 · 2023年3月3日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

专知会员服务

200+阅读 · 2023年2月17日

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

语言模型如何产品落地？《GPT-3:使用大型语言模型构建创新的NLP产品》新书带你实操，151页pdf

专知会员服务

120+阅读 · 2022年8月15日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

相关论文

WISCA: A Lightweight Model Transition Method to Improve LLM Training via Weight Scaling

Arxiv

0+阅读 · 4月22日

Towards EnergyGPT: A Large Language Model Specialized for the Energy Sector

Arxiv

0+阅读 · 4月14日

MoEITS: A Green AI approach for simplifying MoE-LLMs

Arxiv

0+阅读 · 4月12日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

Turn: A Language for Agentic Computation

Arxiv

0+阅读 · 3月7日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

1+阅读 · 2月27日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Arxiv

14+阅读 · 2024年4月15日

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions

Arxiv

54+阅读 · 2023年5月25日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

相关基金

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于调制信号窗内模型的电力系统动态相量测量误差分析及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员