ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval - 专知论文

会员服务 ·

0

代码 · 数据集 · 代码检索 · 系统 · 基准 ·

ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval

翻译：ArkTS-CodeSearch：面向代码检索的开源ArkTS数据集

Yulong He,Artem Ermakov,Sergey Kovalchuk,Artem Aliev,Dmitry Shalymov

ArkTS is a core programming language in the OpenHarmony ecosystem, yet research on ArkTS code intelligence is hindered by the lack of public datasets and evaluation benchmarks. This paper presents a large-scale ArkTS dataset constructed from open-source repositories, targeting code retrieval and code evaluation tasks. We design a single-search task, where natural language comments are used to retrieve corresponding ArkTS functions. ArkTS repositories are crawled from GitHub and Gitee, and comment-function pairs are extracted using tree-sitter-arkts, followed by cross-platform deduplication and statistical analysis of ArkTS function types. We further evaluate existing open-source code embedding models on the single-search task and perform fine-tuning using both ArkTS and TypeScript training datasets, resulting in a high-performing model for ArkTS code understanding. This work establishes the first systematic benchmark for ArkTS code retrieval. Both the dataset and our fine-tuned model are available at https://huggingface.co/hreyulog/embedinggemma_arkts and https://huggingface.co/datasets/hreyulog/arkts-code-docstring .

翻译：ArkTS是OpenHarmony生态系统中的核心编程语言，然而由于缺乏公开数据集和评估基准，针对ArkTS代码智能的研究受到阻碍。本文提出了一个从开源仓库构建的大规模ArkTS数据集，面向代码检索与代码评估任务。我们设计了一项单查询检索任务，即使用自然语言注释来检索对应的ArkTS函数。通过从GitHub和Gitee爬取ArkTS仓库，并利用tree-sitter-arkts工具提取注释-函数对，随后进行跨平台去重及ArkTS函数类型的统计分析。我们进一步在单查询检索任务上评估了现有的开源代码嵌入模型，并同时使用ArkTS和TypeScript训练数据集进行微调，最终获得了一个在ArkTS代码理解方面表现优异的模型。本工作首次为ArkTS代码检索建立了系统性基准。数据集及微调模型均已发布于https://huggingface.co/hreyulog/embedinggemma_arkts 与 https://huggingface.co/datasets/hreyulog/arkts-code-docstring。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

专知会员服务

40+阅读 · 4月1日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

DARPA软件自动快速认证（ARCOS）项目 |《DesCert：认证设计》142页技术报告，2022年

DARPA软件自动快速认证（ARCOS）项目 |《DesCert：认证设计》142页技术报告，2022年

专知会员服务

23+阅读 · 2023年2月25日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

专知会员服务

212+阅读 · 2019年12月15日

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

资源 | 一份非常全面的开源数据集

资源 | 一份非常全面的开源数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年9月7日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

数据派THU

13+阅读 · 2017年11月29日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于Polar码的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

广西民族药物资源数据库及检索平台的研究与设计

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于软件多版本演化的克隆家系提取研究

国家自然科学基金

0+阅读 · 2014年12月31日

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Arxiv

0+阅读 · 3月16日

CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization

Arxiv

0+阅读 · 3月12日

ARCTraj: A Dataset and Benchmark of Human Reasoning Trajectories for Abstract Problem Solving

Arxiv

0+阅读 · 2月15日

SecRepoBench: Benchmarking Code Agents for Secure Code Completion in Real-World Repositories

Arxiv

0+阅读 · 2月14日

ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS

Arxiv

0+阅读 · 2月9日

GrepRAG: An Empirical Study and Optimization of Grep-Like Retrieval for Code Completion

Arxiv

0+阅读 · 2月8日

AnCoder: Anchored Code Generation via Discrete Diffusion Models

Arxiv

0+阅读 · 2月5日

ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval

Arxiv

0+阅读 · 2月5日

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

Arxiv

0+阅读 · 2月3日

StoneDetector: Conventional and versatile code clone detection for Java

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

1+阅读 · 今天13:56

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

1+阅读 · 今天13:54

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

4+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

9+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

3+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

6+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

18+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

7+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

专知会员服务

40+阅读 · 4月1日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

DARPA软件自动快速认证（ARCOS）项目 |《DesCert：认证设计》142页技术报告，2022年

DARPA软件自动快速认证（ARCOS）项目 |《DesCert：认证设计》142页技术报告，2022年

专知会员服务

23+阅读 · 2023年2月25日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

专知会员服务

212+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

文本生成公开数据集/开源工具/经典论文详细列表分享

文本生成公开数据集/开源工具/经典论文详细列表分享

深度学习与NLP

30+阅读 · 2019年9月22日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

资源 | 一份非常全面的开源数据集

资源 | 一份非常全面的开源数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年9月7日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

数据派THU

13+阅读 · 2017年11月29日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

相关论文

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Arxiv

0+阅读 · 3月16日

CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization

Arxiv

0+阅读 · 3月12日

ARCTraj: A Dataset and Benchmark of Human Reasoning Trajectories for Abstract Problem Solving

Arxiv

0+阅读 · 2月15日

SecRepoBench: Benchmarking Code Agents for Secure Code Completion in Real-World Repositories

Arxiv

0+阅读 · 2月14日

ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS

Arxiv

0+阅读 · 2月9日

GrepRAG: An Empirical Study and Optimization of Grep-Like Retrieval for Code Completion

Arxiv

0+阅读 · 2月8日

AnCoder: Anchored Code Generation via Discrete Diffusion Models

Arxiv

0+阅读 · 2月5日

ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval

Arxiv

0+阅读 · 2月5日

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

Arxiv

0+阅读 · 2月3日

StoneDetector: Conventional and versatile code clone detection for Java

Arxiv

0+阅读 · 1月31日

相关基金

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于Polar码的物理层安全编码技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

广西民族药物资源数据库及检索平台的研究与设计

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于软件多版本演化的克隆家系提取研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员