With the advancement of automated software engineering, research focus is increasingly shifting toward practical tasks reflecting the day-to-day work of software engineers. Among these tasks, software migration, a critical process of adapting code to evolving environments, has been largely overlooked. In this study, we introduce TimeMachine-bench, a benchmark designed to evaluate software migration in real-world Python projects. Our benchmark consists of GitHub repositories whose tests begin to fail in response to dependency updates. The construction process is fully automated, enabling live updates of the benchmark. Furthermore, we curated a human-verified subset to ensure problem solvability. We evaluated agent-based baselines built on top of 11 models, including both strong open-weight and state-of-the-art LLMs on this verified subset. Our results indicated that, while LLMs show some promise for migration tasks, they continue to face substantial reliability challenges, including spurious solutions that exploit low test coverage and unnecessary edits stemming from suboptimal tool-use strategies. Our dataset and implementation are available at https://github.com/tohoku-nlp/timemachine-bench.


翻译:随着自动化软件工程的进步,研究重点正日益转向反映软件工程师日常工作的实际任务。在这些任务中,软件迁移——一个使代码适应不断变化环境的关键过程——在很大程度上被忽视了。在本研究中,我们介绍了TimeMachine-bench,这是一个旨在评估现实世界Python项目中软件迁移的基准。我们的基准由那些因其依赖项更新而导致测试开始失败的GitHub仓库组成。构建过程完全自动化,使得基准能够实时更新。此外,我们整理了一个经过人工验证的子集,以确保问题的可解性。我们评估了基于11个模型构建的智能体基线,包括强大的开源权重模型和最先进的大语言模型,并在该验证子集上进行了测试。我们的结果表明,尽管大语言模型在迁移任务中显示出一定的潜力,但它们仍然面临重大的可靠性挑战,包括利用低测试覆盖率的虚假解决方案,以及由次优工具使用策略导致的不必要编辑。我们的数据集和实现可在 https://github.com/tohoku-nlp/timemachine-bench 获取。

0
下载
关闭预览

相关内容

阿里巴巴发布最新《时间序列Transformer建模》综述论文
专知会员服务
137+阅读 · 2022年2月16日
《迁移学习简明手册》,93页pdf
专知会员服务
137+阅读 · 2019年12月9日
迁移自适应学习最新综述,附21页论文下载
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
一文了解迁移学习经典算法
AI100
11+阅读 · 2018年8月4日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员