While open source communities attract diverse contributors across the globe, only a few open source software repositories provide essential documentation, such as ReadMe or CONTRIBUTING files, in languages other than English. Recently, large language models (LLMs) have demonstrated remarkable capabilities in a variety of software engineering tasks. We have also seen advances in the use of LLMs for translations in other domains and contexts. Despite this progress, little is known regarding the capabilities of LLMs in translating open-source technical documentation, which is often a mixture of natural language, code, URLs, and markdown formatting. To better understand the need and potential for LLMs to support translation of technical documentation in open source, we conducted an empirical evaluation of translation activity and translation capabilities of two powerful large language models (OpenAI ChatGPT 4 and Anthropic Claude). We found that translation activity is often community-driven and most frequent in larger repositories. A comparison of LLM performance as translators and evaluators of technical documentation suggests LLMs can provide accurate semantic translations but may struggle preserving structure and technical content. These findings highlight both the promise and the challenges of LLM-assisted documentation internationalization and provide a foundation towards automated LLM-driven support for creating and maintaining open source documentation.


翻译:尽管开源社区吸引了全球多元化的贡献者,但仅有少数开源软件仓库提供英语之外的其他语言版本的必要文档,例如ReadMe或CONTRIBUTING文件。近年来,大型语言模型(LLMs)已在各类软件工程任务中展现出卓越能力。我们也观察到LLMs在其他领域和场景中翻译应用方面的进展。尽管取得这些进步,但关于LLMs在翻译开源技术文档方面的能力仍知之甚少,此类文档通常是自然语言、代码、URL和Markdown格式的混合体。为深入理解LLMs支持开源技术文档翻译的需求与潜力,我们对翻译活动及两种强大大型语言模型(OpenAI ChatGPT 4与Anthropic Claude)的翻译能力进行了实证评估。研究发现,翻译活动通常由社区驱动,且在大型仓库中最为频繁。通过比较LLMs作为技术文档翻译器与评估器的表现,表明LLMs能够提供准确的语义翻译,但在保持文档结构与技术内容方面可能存在困难。这些发现既揭示了LLM辅助文档国际化的前景,也指出了其面临的挑战,为构建自动化LLM驱动的开源文档创建与维护支持体系奠定了基础。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
大型语言模型(LLMs)革新金融:应用与洞察概览
专知会员服务
40+阅读 · 2024年3月22日
如何检测ChatGPT?TUM最新《检测ChatGPT生成文本现状》综述
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员