Compiler-Guided Inference-Time Adaptation: Improving GPT-5 Programming Performance in Idris - 专知论文

会员服务 ·

0

GPT-5 · 编程 · 编译器 · 编程语言 · 低资源 ·

Compiler-Guided Inference-Time Adaptation: Improving GPT-5 Programming Performance in Idris

翻译：编译器引导的推理时适应：提升GPT-5在Idris中的编程性能

Minda Li,Bhaskar Krishnamachari

GPT-5, a state of the art large language model from OpenAI, demonstrates strong performance in widely used programming languages such as Python, C++, and Java; however, its ability to operate in low resource or less commonly used languages remains underexplored. This work investigates whether GPT-5 can effectively acquire proficiency in an unfamiliar functional programming language, Idris, through iterative, feedback driven prompting. We first establish a baseline showing that with zero shot prompting the model solves only 22 out of 56 Idris exercises using the platform Exercism, substantially underperforming relative to higher resource languages (45 out of 50 in Python and 35 out of 47 in Erlang). We then evaluate several refinement strategies, including iterative prompting based on platform feedback, augmenting prompts with documentation and error classification guides, and iterative prompting using local compilation errors and failed test cases. Among these approaches, incorporating local compilation errors yields the most substantial improvements. Using this structured, error guided refinement loop, GPT-5 performance increased to an impressive 54 solved problems out of 56. These results suggest that while large language models may initially struggle in low resource settings, structured compiler level feedback can play a critical role in unlocking their capabilities.

翻译：GPT-5作为OpenAI推出的前沿大型语言模型，在Python、C++和Java等广泛使用的编程语言中展现出卓越性能；然而，其在低资源或非主流语言中的能力仍未得到充分探索。本研究通过迭代式、反馈驱动的提示策略，探究GPT-5能否有效掌握陌生的函数式编程语言Idris。我们首先建立基线测试：在零样本提示下，该模型仅能解决Exercism平台上56道Idris习题中的22道，显著落后于高资源语言表现（Python为50题中的45题，Erlang为47题中的35题）。随后我们评估了多种优化策略，包括基于平台反馈的迭代提示、补充文档与错误分类指南的增强提示，以及利用本地编译错误和失败测试用例的迭代提示。在这些方法中，整合本地编译错误带来了最显著的改进。通过这种结构化的错误引导优化循环，GPT-5的解题能力提升至56题中的54题。这些结果表明，尽管大型语言模型在低资源环境中可能面临初始困难，但结构化的编译器层级反馈对于释放其潜力具有关键作用。

0

相关内容

GPT-5

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

专知会员服务

86+阅读 · 2024年2月24日

【2023新书】GPT-4开发者指南，169页pdf

【2023新书】GPT-4开发者指南，169页pdf

专知会员服务

105+阅读 · 2024年1月21日

【2023新书】使用GPT-4和ChatGPT开发应用程序：构建智能聊天机器人、内容生成器等

【2023新书】使用GPT-4和ChatGPT开发应用程序：构建智能聊天机器人、内容生成器等

专知会员服务

91+阅读 · 2023年9月1日

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

专知会员服务

99+阅读 · 2023年6月19日

【2023新书】使用GPT-4和ChatGPT开发应用程序构建智能聊天机器人、内容生成器等

【2023新书】使用GPT-4和ChatGPT开发应用程序构建智能聊天机器人、内容生成器等

专知会员服务

142+阅读 · 2023年5月22日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

专知会员服务

167+阅读 · 2023年4月17日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知会员服务

166+阅读 · 2023年4月9日

GPT-4开启AGI之门？微软最新刷屏154页《通用人工智能的火花:GPT-4的早期实验》报告，探究去向AGI之路（附中文版）

GPT-4开启AGI之门？微软最新刷屏154页《通用人工智能的火花:GPT-4的早期实验》报告，探究去向AGI之路（附中文版）

专知会员服务

251+阅读 · 2023年3月24日

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

专知会员服务

327+阅读 · 2023年3月19日

“数学天才”陶哲轩也爱上 GPT-4：节省了大量繁琐工作

“数学天才”陶哲轩也爱上 GPT-4：节省了大量繁琐工作

CSDN

28+阅读 · 2023年4月13日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

大三学生独自破解逆天AI模型：我只是把撩妹的时间，都用来研究机器学习了

大三学生独自破解逆天AI模型：我只是把撩妹的时间，都用来研究机器学习了

量子位

12+阅读 · 2019年6月9日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于概率图谱引导的群组自适应时序脑MR图像脑提取方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

Scaling Inference-Time Computation via Opponent Simulation: Enabling Online Strategic Adaptation in Repeated Negotiation

Arxiv

0+阅读 · 2月26日

Scaling Inference-Time Computation via Opponent Simulation: Enabling Online Strategic Adaptation in Repeated Negotiation

Arxiv

0+阅读 · 2月22日

Human-AI Interaction: Evaluating LLM Reasoning on Digital Logic Circuit included Graph Problems, in terms of creativity in design and analysis

Arxiv

0+阅读 · 2月17日

Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration

Arxiv

0+阅读 · 2月12日

Evaluating ChatGPT on Medical Information Extraction Tasks: Performance, Explainability and Beyond

Arxiv

0+阅读 · 2月11日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

Arxiv

0+阅读 · 2月9日

The Matthew Effect of AI Programming Assistants: A Hidden Bias in Software Evolution

Arxiv

0+阅读 · 2月9日

REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving

Arxiv

0+阅读 · 2月4日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

VIP会员

文章信息

相关主题

最新内容

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

0+阅读 · 4分钟前

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

0+阅读 · 8分钟前

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

0+阅读 · 13分钟前

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

2+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

4+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

6+阅读 · 4月22日

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

4+阅读 · 4月22日

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

5+阅读 · 4月22日

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

2+阅读 · 4月22日

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

5+阅读 · 4月22日

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

9+阅读 · 4月22日

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

8+阅读 · 4月22日

相关VIP内容

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

专知会员服务

86+阅读 · 2024年2月24日

【2023新书】GPT-4开发者指南，169页pdf

【2023新书】GPT-4开发者指南，169页pdf

专知会员服务

105+阅读 · 2024年1月21日

【2023新书】使用GPT-4和ChatGPT开发应用程序：构建智能聊天机器人、内容生成器等

【2023新书】使用GPT-4和ChatGPT开发应用程序：构建智能聊天机器人、内容生成器等

专知会员服务

91+阅读 · 2023年9月1日

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

专知会员服务

99+阅读 · 2023年6月19日

【2023新书】使用GPT-4和ChatGPT开发应用程序构建智能聊天机器人、内容生成器等

【2023新书】使用GPT-4和ChatGPT开发应用程序构建智能聊天机器人、内容生成器等

专知会员服务

142+阅读 · 2023年5月22日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

【2023新书】ChatGPT淘金热: 从人工智能革命中获利，掌握GPT-4的提示工程技术，200页pdf

专知会员服务

167+阅读 · 2023年4月17日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知会员服务

166+阅读 · 2023年4月9日

GPT-4开启AGI之门？微软最新刷屏154页《通用人工智能的火花:GPT-4的早期实验》报告，探究去向AGI之路（附中文版）

GPT-4开启AGI之门？微软最新刷屏154页《通用人工智能的火花:GPT-4的早期实验》报告，探究去向AGI之路（附中文版）

专知会员服务

251+阅读 · 2023年3月24日

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

【ChatGPT系列报告】GPT-4及ChatGPT相关应用梳理，33页ppt

专知会员服务

327+阅读 · 2023年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

多智能体系统：从经典范式到大基础模型驱动的未来

《低数据领域军事目标检测模型研究》

【CMU博士论文】物理世界的视觉感知与深度理解

相关资讯

“数学天才”陶哲轩也爱上 GPT-4：节省了大量繁琐工作

“数学天才”陶哲轩也爱上 GPT-4：节省了大量繁琐工作

CSDN

28+阅读 · 2023年4月13日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

GPT-4视频讲解！附Slides，OpenAI 《GPT-4 技术报告》中英文版下载,151页pdf

专知

22+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知

29+阅读 · 2023年4月9日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

大三学生独自破解逆天AI模型：我只是把撩妹的时间，都用来研究机器学习了

大三学生独自破解逆天AI模型：我只是把撩妹的时间，都用来研究机器学习了

量子位

12+阅读 · 2019年6月9日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

相关论文

Scaling Inference-Time Computation via Opponent Simulation: Enabling Online Strategic Adaptation in Repeated Negotiation

Arxiv

0+阅读 · 2月26日

Scaling Inference-Time Computation via Opponent Simulation: Enabling Online Strategic Adaptation in Repeated Negotiation

Arxiv

0+阅读 · 2月22日

Human-AI Interaction: Evaluating LLM Reasoning on Digital Logic Circuit included Graph Problems, in terms of creativity in design and analysis

Arxiv

0+阅读 · 2月17日

Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration

Arxiv

0+阅读 · 2月12日

Evaluating ChatGPT on Medical Information Extraction Tasks: Performance, Explainability and Beyond

Arxiv

0+阅读 · 2月11日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

Arxiv

0+阅读 · 2月9日

The Matthew Effect of AI Programming Assistants: A Hidden Bias in Software Evolution

Arxiv

0+阅读 · 2月9日

REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving

Arxiv

0+阅读 · 2月4日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于概率图谱引导的群组自适应时序脑MR图像脑提取方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员