Maintaining large-scale, multilingual codebases hinges on accurately localizing issues, which requires mapping natural-language error descriptions to the relevant functions that need to be modified. However, existing ranking approaches are often Python-centric and perform a single-pass search over the codebase. This work introduces SweRank+, a framework that couples SweRankMulti, a cross-lingual code ranking tool, with SweRankAgent, an agentic search setup, for iterative, multi-turn reasoning over the code repository. SweRankMulti comprises a code embedding retriever and a listwise LLM reranker, and is trained using a carefully curated large-scale issue localization dataset spanning multiple popular programming languages. SweRankAgent adopts an agentic search loop that moves beyond single-shot localization with a memory buffer to reason and accumulate relevant localization candidates over multiple turns. Our experiments on issue localization benchmarks spanning various languages demonstrate new state-of-the-art performance with SweRankMulti, while SweRankAgent further improves localization over single-pass ranking.


翻译:维护大规模、多语言代码库的关键在于准确定位问题,这需要将自然语言错误描述映射到需要修改的相关函数。然而,现有的排序方法通常以Python为中心,且仅对代码库执行单次搜索。本文提出SweRank+框架,它将跨语言代码排序工具SweRankMulti与智能搜索配置SweRankAgent相结合,实现对代码仓库的迭代式、多轮推理。SweRankMulti包含一个代码嵌入检索器和一个列表式大语言模型重排序器,并利用精心构建的、涵盖多种主流编程语言的大规模问题定位数据集进行训练。SweRankAgent采用智能搜索循环,通过记忆缓冲区超越单次定位,在多轮中推理并积累相关定位候选。我们在涵盖多种语言的问题定位基准测试上的实验表明,SweRankMulti实现了新的最先进性能,而SweRankAgent则进一步提升了单次排序的定位效果。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
13+阅读 · 2025年3月26日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
专知会员服务
46+阅读 · 2020年10月22日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
《压缩式分布式交互仿真标准》120页
专知会员服务
0+阅读 · 11分钟前
《电子战数据交换模型研究报告》
专知会员服务
1+阅读 · 19分钟前
《基于Transformer的异常舰船导航识别与跟踪》80页
专知会员服务
1+阅读 · 47分钟前
《低数据领域军事目标检测模型研究》
专知会员服务
1+阅读 · 55分钟前
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
4+阅读 · 4月22日
相关资讯
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员