Assessing and Improving Punctuation Robustness in English-Marathi Machine Translation - 专知论文

会员服务 ·

0

标点 · 机器翻译 · 鲁棒 · 系统 · 神经机器翻译 ·

Assessing and Improving Punctuation Robustness in English-Marathi Machine Translation

翻译：评估与提升英语-马拉地语机器翻译中的标点鲁棒性

Kaustubh Shivshankar Shejole,Sourabh Deoghare,Pushpak Bhattacharyya

Neural Machine Translation (NMT) systems rely heavily on explicit punctuation cues to resolve semantic ambiguities in a source sentence. Inputting user-generated sentences, which are likely to contain missing or incorrect punctuation, results in fluent but semantically disastrous translations. This work attempts to highlight and address the problem of punctuation robustness of NMT systems through an English-to-Marathi translation. First, we introduce \textbf{\textit{Viram}}, a human-curated diagnostic benchmark of 54 punctuation-ambiguous English-Marathi sentence pairs to stress-test existing NMT systems. Second, we evaluate two simple remediation strategies: cascade-based \textit{restore-then-translate} and \textit{direct fine-tuning}. Our experimental results and analysis demonstrate that both strategies yield substantial NMT performance improvements. Furthermore, we find that current Large Language Models (LLMs) exhibit relatively poorer robustness in translating such sentences than these task-specific strategies, thus necessitating further research in this area. The code and dataset are available at https://github.com/KaustubhShejole/Viram_Marathi.

翻译：神经机器翻译系统严重依赖显式标点线索来消解源语句中的语义歧义。当输入用户生成的句子时（这类句子很可能存在缺失或错误的标点），系统会产生流畅但语义灾难性的翻译结果。本研究试图通过英语到马拉地语的翻译任务，揭示并解决神经机器翻译系统的标点鲁棒性问题。首先，我们提出了\textbf{\textit{Viram}}——一个包含54组标点歧义英语-马拉地语句对的人工标注诊断基准数据集，用于对现有神经机器翻译系统进行压力测试。其次，我们评估了两种简单的改进策略：基于级联的“先修复后翻译”方法和直接微调方法。实验结果表明，这两种策略均能显著提升神经机器翻译性能。此外，我们发现当前的大型语言模型在翻译此类句子时，其鲁棒性相较于这些任务专用策略表现相对较差，这表明该领域仍需进一步深入研究。代码与数据集已公开于https://github.com/KaustubhShejole/Viram_Marathi。

0

相关内容

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

19+阅读 · 2023年12月9日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

26+阅读 · 2022年11月2日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

翻译技术沙龙

32+阅读 · 2019年6月17日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

清华大学：刘洋——基于深度学习的机器翻译

清华大学：刘洋——基于深度学习的机器翻译

人工智能学家

12+阅读 · 2017年11月13日

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

北京思腾合力科技有限公司

11+阅读 · 2017年8月10日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Translationese as a Rational Response to Translation Task Difficulty

Arxiv

0+阅读 · 3月12日

Large Language Models as Annotators for Machine Translation Quality Estimation

Arxiv

0+阅读 · 3月11日

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Arxiv

0+阅读 · 3月11日

A Comprehensive Evaluation of LLM Unlearning Robustness under Multi-Turn Interaction

Arxiv

0+阅读 · 2月28日

Training Models on Dialects of Translationese Shows How Lexical Diversity and Source-Target Syntactic Similarity Shape Learning

Arxiv

0+阅读 · 2月18日

LATA: A Tool for LLM-Assisted Translation Annotation

Arxiv

0+阅读 · 2月11日

MTQE.en-he: Machine Translation Quality Estimation for English-Hebrew

Arxiv

0+阅读 · 2月6日

Disentangling meaning from language in LLM-based machine translation

Arxiv

0+阅读 · 2月4日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

RobustExplain: Evaluating Robustness of LLM-Based Explanation Agents for Recommendation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

神经机器翻译

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

2+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

5+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

19+阅读 · 2023年12月9日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

26+阅读 · 2022年11月2日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

翻译技术沙龙

32+阅读 · 2019年6月17日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

清华大学：刘洋——基于深度学习的机器翻译

清华大学：刘洋——基于深度学习的机器翻译

人工智能学家

12+阅读 · 2017年11月13日

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

北京思腾合力科技有限公司

11+阅读 · 2017年8月10日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

Translationese as a Rational Response to Translation Task Difficulty

Arxiv

0+阅读 · 3月12日

Large Language Models as Annotators for Machine Translation Quality Estimation

Arxiv

0+阅读 · 3月11日

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Arxiv

0+阅读 · 3月11日

A Comprehensive Evaluation of LLM Unlearning Robustness under Multi-Turn Interaction

Arxiv

0+阅读 · 2月28日

Training Models on Dialects of Translationese Shows How Lexical Diversity and Source-Target Syntactic Similarity Shape Learning

Arxiv

0+阅读 · 2月18日

LATA: A Tool for LLM-Assisted Translation Annotation

Arxiv

0+阅读 · 2月11日

MTQE.en-he: Machine Translation Quality Estimation for English-Hebrew

Arxiv

0+阅读 · 2月6日

Disentangling meaning from language in LLM-based machine translation

Arxiv

0+阅读 · 2月4日

Robustness as an Emergent Property of Task Performance

Arxiv

0+阅读 · 2月3日

RobustExplain: Evaluating Robustness of LLM-Based Explanation Agents for Recommendation

Arxiv

0+阅读 · 2月3日

相关基金

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员