E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task - 专知论文

会员服务 ·

0

基准 · ESD · 软件 · 基准测试 · 端到端 ·

E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task

翻译：E2Edev：面向端到端软件开发任务的大语言模型基准测试

Jingyao Liu,Chen Huang,Zhizhao Guan,Wenqiang Lei,Yang Deng

from arxiv, Accepted to ACL 2026 main

The rapid advancement in large language models (LLMs) has demonstrated significant potential in End-to-End Software Development (E2ESD). However, existing E2ESD benchmarks are limited by coarse-grained requirement specifications and unreliable evaluation protocols, hindering a true understanding of current framework capabilities. To address these limitations, we present E2EDev, a novel benchmark grounded in the principles of Behavior-Driven Development (BDD), which evaluates the capabilities of E2ESD frameworks by assessing whether the generated software meets user needs through mimicking real user interactions (Figure 1). E2EDev comprises (i) a fine-grained set of user requirements, (ii) multiple BDD test scenarios with corresponding Python step implementations for each requirement, and (iii) a fully automated testing pipeline built on the Behave framework. To ensure its quality while reducing the annotation effort, E2EDev leverages our proposed Human-in-the-Loop Multi-Agent Annotation Framework (HITL-MAA). By evaluating various E2ESD frameworks and LLM backbones with E2EDev, our analysis reveals a persistent struggle to effectively solve these tasks, underscoring the critical need for more effective and cost-efficient E2ESD solutions. Our codebase and benchmark are publicly available at https://github.com/SCUNLP/E2EDev.

翻译：大语言模型的快速发展在端到端软件开发（E2ESD）领域展现出显著潜力。然而，现有E2ESD基准测试受限于粗粒度的需求规范和不可靠的评估协议，阻碍了对当前框架能力的真实理解。为应对这些局限，我们提出E2EDev——一种基于行为驱动开发（BDD）原则的新型基准测试，通过模拟真实用户交互（图1）评估生成软件是否满足用户需求，从而检验E2ESD框架的能力。E2EDev包含：(i) 细粒度的用户需求集合；(ii) 针对每条需求的多个BDD测试场景及对应的Python步骤实现；(iii) 基于Behave框架构建的全自动化测试流水线。为在降低人工标注工作量的同时保证基准质量，E2EDev采用我们提出的人机协同多智能体标注框架（HITL-MAA）。通过使用E2EDev对多种E2ESD框架和大语言模型骨干架构进行评估，分析表明这些任务仍难以被有效解决，凸显了对更高效、更具成本效益的E2ESD解决方案的迫切需求。我们的代码库与基准数据已开源发布于 https://github.com/SCUNLP/E2EDev。

0

相关内容

用于单元测试生成的大型语言模型：成果、挑战与未来方向

用于单元测试生成的大型语言模型：成果、挑战与未来方向

专知会员服务

17+阅读 · 2025年11月27日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

专知会员服务

42+阅读 · 2024年6月27日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向5G移动通信系统的D2D可靠多播通信关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

异构微蜂窝网络中的D2D通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

模仿型新产品开发过程及对新产品绩效的影响机制：中、美、印的跨国研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

Arxiv

0+阅读 · 4月27日

Benchmarking LLM-Driven Network Configuration Repair

Arxiv

0+阅读 · 4月24日

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Arxiv

0+阅读 · 4月20日

VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model

Arxiv

0+阅读 · 4月5日

MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development

Arxiv

0+阅读 · 3月26日

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Arxiv

0+阅读 · 3月19日

SemBench: A Benchmark for Semantic Query Processing Engines

Arxiv

0+阅读 · 3月16日

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

Arxiv

0+阅读 · 3月5日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

用于单元测试生成的大型语言模型：成果、挑战与未来方向

用于单元测试生成的大型语言模型：成果、挑战与未来方向

专知会员服务

17+阅读 · 2025年11月27日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

【斯坦福博士论文】大语言模型的AI辅助评估

【斯坦福博士论文】大语言模型的AI辅助评估

专知会员服务

31+阅读 · 2025年3月30日

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

专知会员服务

42+阅读 · 2024年6月27日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

相关论文

STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

Arxiv

0+阅读 · 4月27日

Benchmarking LLM-Driven Network Configuration Repair

Arxiv

0+阅读 · 4月24日

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Arxiv

0+阅读 · 4月20日

VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model

Arxiv

0+阅读 · 4月5日

MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development

Arxiv

0+阅读 · 3月26日

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Arxiv

0+阅读 · 3月19日

SemBench: A Benchmark for Semantic Query Processing Engines

Arxiv

0+阅读 · 3月16日

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

Arxiv

0+阅读 · 3月5日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

Arxiv

0+阅读 · 2月24日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向5G移动通信系统的D2D可靠多播通信关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

异构微蜂窝网络中的D2D通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

模仿型新产品开发过程及对新产品绩效的影响机制：中、美、印的跨国研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员