面向利用LLM驱动文档翻译弥合开源软件语言鸿沟 (Towards Bridging Language Gaps in OSS with LLM-Driven Documentation Translation) - 专知论文

会员服务 ·

0

软件 · 大语言模型 · 语言模型 · 代码 · URL ·

Towards Bridging Language Gaps in OSS with LLM-Driven Documentation Translation

翻译：面向利用LLM驱动文档翻译弥合开源软件语言鸿沟

Elijah Kayode Adejumo,Mariam Guizani,Fatemeh Vares,Brittany Johnson

While open source communities attract diverse contributors across the globe, only a few open source software repositories provide essential documentation, such as ReadMe or CONTRIBUTING files, in languages other than English. Recently, large language models (LLMs) have demonstrated remarkable capabilities in a variety of software engineering tasks. We have also seen advances in the use of LLMs for translations in other domains and contexts. Despite this progress, little is known regarding the capabilities of LLMs in translating open-source technical documentation, which is often a mixture of natural language, code, URLs, and markdown formatting. To better understand the need and potential for LLMs to support translation of technical documentation in open source, we conducted an empirical evaluation of translation activity and translation capabilities of two powerful large language models (OpenAI ChatGPT 4 and Anthropic Claude). We found that translation activity is often community-driven and most frequent in larger repositories. A comparison of LLM performance as translators and evaluators of technical documentation suggests LLMs can provide accurate semantic translations but may struggle preserving structure and technical content. These findings highlight both the promise and the challenges of LLM-assisted documentation internationalization and provide a foundation towards automated LLM-driven support for creating and maintaining open source documentation.

翻译：尽管开源社区吸引了全球多元化的贡献者，但仅有少数开源软件仓库提供英语之外的其他语言版本的必要文档，例如ReadMe或CONTRIBUTING文件。近年来，大型语言模型（LLMs）已在各类软件工程任务中展现出卓越能力。我们也观察到LLMs在其他领域和场景中翻译应用方面的进展。尽管取得这些进步，但关于LLMs在翻译开源技术文档方面的能力仍知之甚少，此类文档通常是自然语言、代码、URL和Markdown格式的混合体。为深入理解LLMs支持开源技术文档翻译的需求与潜力，我们对翻译活动及两种强大大型语言模型（OpenAI ChatGPT 4与Anthropic Claude）的翻译能力进行了实证评估。研究发现，翻译活动通常由社区驱动，且在大型仓库中最为频繁。通过比较LLMs作为技术文档翻译器与评估器的表现，表明LLMs能够提供准确的语义翻译，但在保持文档结构与技术内容方面可能存在困难。这些发现既揭示了LLM辅助文档国际化的前景，也指出了其面临的挑战，为构建自动化LLM驱动的开源文档创建与维护支持体系奠定了基础。

0

相关内容

软件（中国大陆及香港用语，台湾作软体，英文：Software）是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

48+阅读 · 2024年12月13日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

103+阅读 · 2023年8月31日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

Linux中国

10+阅读 · 2019年6月22日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

用R语言实现汉语转拼音及英语

用R语言实现汉语转拼音及英语

数萃大数据

11+阅读 · 2017年9月18日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

LLMs Explain't: A Post-Mortem on Semantic Interpretability in Transformer Models

Arxiv

0+阅读 · 1月30日

PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs

Arxiv

0+阅读 · 1月23日

From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler

Arxiv

0+阅读 · 1月23日

Protocode: Prototype-Driven Interpretability for Code Generation in LLMs

Arxiv

0+阅读 · 1月21日

From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler

Arxiv

0+阅读 · 1月17日

TransLibEval: Demystify Large Language Models' Capability in Third-party Library-targeted Code Translation

Arxiv

0+阅读 · 1月17日

Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs

Arxiv

0+阅读 · 1月16日

STELP: Secure Transpilation and Execution of LLM-Generated Programs

Arxiv

0+阅读 · 1月15日

Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation

Arxiv

0+阅读 · 1月12日

LLM-Driven Accessible Interface: A Model-Based Approach

Arxiv

0+阅读 · 1月10日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

48+阅读 · 2024年12月13日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

103+阅读 · 2023年8月31日

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

微软最新ACL2023教程《关于多语言LLM你需要知道的一切:面向世界语言的公平，高性能和可靠的模型》，144页ppt

专知会员服务

57+阅读 · 2023年7月11日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

5 款不错的开源语音识别/语音文字转换系统 | Linux 中国

Linux中国

10+阅读 · 2019年6月22日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

用R语言实现汉语转拼音及英语

用R语言实现汉语转拼音及英语

数萃大数据

11+阅读 · 2017年9月18日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

LLMs Explain't: A Post-Mortem on Semantic Interpretability in Transformer Models

Arxiv

0+阅读 · 1月30日

PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs

Arxiv

0+阅读 · 1月23日

From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler

Arxiv

0+阅读 · 1月23日

Protocode: Prototype-Driven Interpretability for Code Generation in LLMs

Arxiv

0+阅读 · 1月21日

From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler

Arxiv

0+阅读 · 1月17日

TransLibEval: Demystify Large Language Models' Capability in Third-party Library-targeted Code Translation

Arxiv

0+阅读 · 1月17日

Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs

Arxiv

0+阅读 · 1月16日

STELP: Secure Transpilation and Execution of LLM-Generated Programs

Arxiv

0+阅读 · 1月15日

Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation

Arxiv

0+阅读 · 1月12日

LLM-Driven Accessible Interface: A Model-Based Approach

Arxiv

0+阅读 · 1月10日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员