LATA: A Tool for LLM-Assisted Translation Annotation - 专知论文

会员服务 ·

0

标注 · 工具 · 模型辅助 · 对齐 · 语言模型 ·

LATA: A Tool for LLM-Assisted Translation Annotation

翻译：LATA：一种用于大语言模型辅助翻译标注的工具

Baorong Huang,Ali Asiri

The construction of high-quality parallel corpora for translation research has increasingly evolved from simple sentence alignment to complex, multi-layered annotation tasks. This methodological shift presents significant challenges for structurally divergent language pairs, such as Arabic--English, where standard automated tools frequently fail to capture deep linguistic shifts or semantic nuances. This paper introduces a novel, LLM-assisted interactive tool designed to reduce the gap between scalable automation and the rigorous precision required for expert human judgment. Unlike traditional statistical aligners, our system employs a template-based Prompt Manager that leverages large language models (LLMs) for sentence segmentation and alignment under strict JSON output constraints. In this tool, automated preprocessing integrates into a human-in-the-loop workflow, allowing researchers to refine alignments and apply custom translation technique annotations through a stand-off architecture. By leveraging LLM-assisted processing, the tool balances annotation efficiency with the linguistic precision required to analyze complex translation phenomena in specialized domains.

翻译：翻译研究中高质量平行语料库的构建已从简单的句子对齐逐渐演变为复杂的多层次标注任务。这一方法学转变对结构差异较大的语言对（如阿拉伯语-英语）提出了重大挑战，标准自动化工具往往无法捕捉深层的语言转换或语义细微差别。本文介绍了一种新颖的大语言模型辅助交互式工具，旨在缩小可扩展自动化与专家人工判断所需严格精度之间的差距。与传统统计对齐器不同，本系统采用基于模板的提示管理器，利用大语言模型在严格JSON输出约束下进行句子分割与对齐。该工具将自动化预处理整合至人机协同工作流中，使研究人员能够通过独立标注架构优化对齐结果并应用自定义翻译技巧标注。通过大语言模型辅助处理，该工具在标注效率与分析专业领域复杂翻译现象所需语言精度之间实现了平衡。

0

相关内容

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

【Facebook AI】无监督机器翻译，336页ppt，Unsupervised Machine Translation

专知会员服务

19+阅读 · 2020年11月17日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

【翻译技术速递】入门教程：Trados 翻译记忆库工具

【翻译技术速递】入门教程：Trados 翻译记忆库工具

翻译技术沙龙

38+阅读 · 2019年11月28日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

机器之心

40+阅读 · 2019年9月5日

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

翻译技术沙龙

32+阅读 · 2019年6月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Arxiv

0+阅读 · 3月16日

Large Language Models as Annotators for Machine Translation Quality Estimation

Arxiv

0+阅读 · 3月11日

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Arxiv

0+阅读 · 3月10日

Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment

Arxiv

0+阅读 · 2月25日

Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework

Arxiv

0+阅读 · 2月17日

Text Style Transfer with Parameter-efficient LLM Finetuning and Round-trip Translation

Arxiv

0+阅读 · 2月16日

DALL: Data Labeling via Data Programming and Active Learning Enhanced by Large Language Models

Arxiv

0+阅读 · 2月15日

Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework

Arxiv

0+阅读 · 2月15日

A large-scale pipeline for automatic corpus annotation using LLMs: variation and change in the English consider construction

Arxiv

0+阅读 · 2月10日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

0+阅读 · 23分钟前

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

0+阅读 · 26分钟前

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

8+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

14+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

16+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

8+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

10+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

13+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

13+阅读 · 7月15日

相关VIP内容

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

【Facebook AI】无监督机器翻译，336页ppt，Unsupervised Machine Translation

专知会员服务

19+阅读 · 2020年11月17日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

《无人地面战车（UGV）的崛起》报告

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

【翻译技术速递】入门教程：Trados 翻译记忆库工具

【翻译技术速递】入门教程：Trados 翻译记忆库工具

翻译技术沙龙

38+阅读 · 2019年11月28日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

机器之心

40+阅读 · 2019年9月5日

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

翻译技术沙龙

32+阅读 · 2019年6月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Arxiv

0+阅读 · 3月16日

Large Language Models as Annotators for Machine Translation Quality Estimation

Arxiv

0+阅读 · 3月11日

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Arxiv

0+阅读 · 3月10日

Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment

Arxiv

0+阅读 · 2月25日

Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework

Arxiv

0+阅读 · 2月17日

Text Style Transfer with Parameter-efficient LLM Finetuning and Round-trip Translation

Arxiv

0+阅读 · 2月16日

DALL: Data Labeling via Data Programming and Active Learning Enhanced by Large Language Models

Arxiv

0+阅读 · 2月15日

Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework

Arxiv

0+阅读 · 2月15日

A large-scale pipeline for automatic corpus annotation using LLMs: variation and change in the English consider construction

Arxiv

0+阅读 · 2月10日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员