Automatic post-editing (APE) aims to refine machine translations by correcting residual errors. Although recent large language models (LLMs) demonstrate strong translation capabilities, their effectiveness for APE--especially under document-level context--remains insufficiently understood. We present a systematic comparison of proprietary and open-weight LLMs under a naive document-level prompting setup, analyzing APE quality, contextual behavior, robustness, and efficiency. Our results show that proprietary LLMs achieve near human-level APE quality even with simple one-shot prompting, regardless of whether document context is provided. While these models exhibit higher robustness to data poisoning attacks than open-weight counterparts, this robustness also reveals a limitation: they largely fail to exploit document-level context for contextual error correction. Furthermore, standard automatic metrics do not reliably reflect these qualitative improvements, highlighting the continued necessity of human evaluation. Despite their strong performance, the substantial cost and latency overheads of proprietary LLMs render them impractical for real-world APE deployment. Overall, our findings elucidate both the promise and current limitations of LLM-based document-aware APE, and point toward the need for more efficient long-context modeling approaches for translation refinement.


翻译:自动译后编辑(APE)旨在通过修正残留错误来优化机器翻译质量。尽管近期大型语言模型(LLMs)展现出强大的翻译能力,但其在APE任务中的有效性——特别是在文档级上下文条件下——仍未得到充分理解。本研究通过朴素的文档级提示设置,系统比较了专有模型与开源权重模型在APE质量、上下文利用行为、鲁棒性及效率方面的表现。实验结果表明,专有LLMs即使仅采用简单的单样本提示,也能达到接近人类水平的APE质量,且无论是否提供文档上下文均保持稳定。虽然这些模型相比开源权重模型对数据投毒攻击表现出更高的鲁棒性,但这种鲁棒性也暴露出其局限性:它们大多未能有效利用文档级上下文进行语境化错误修正。此外,标准自动评估指标无法可靠反映这些质性改进,凸显了人工评估的持续必要性。尽管专有LLMs性能卓越,但其显著的计算成本与延迟开销使其难以在实际APE部署中应用。总体而言,本研究结果阐明了基于LLM的文档感知APE技术的潜力与当前局限,并指出需要开发更高效的长上下文建模方法以推动翻译优化领域发展。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
27+阅读 · 2025年10月8日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大型语言模型自动程序修复的系统文献综述
专知会员服务
42+阅读 · 2024年5月5日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月27日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
7+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
2+阅读 · 4月19日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员