This paper examines how the labour of translators has been transformed into foundational data capital for the age of artificial intelligence (AI). Translation memories (TM) and parallel corpora preserve a one-to-one correspondence between source and target text and therefore constitute extraordinarily valuable supervised training data for machine translation. The development of statistical machine translation (SMT), neural machine translation (NMT), the Transformer architecture, and multilingual large language models (LLMs) cannot be disentangled from the accumulation of such translation data. And yet, translators' renditions have been bought as deliverables under contract, segmented as technical objects, and processed as "information analysis" data under copyright law -- losing their moral, creative, and economic attribution to the translators who produced them. The paper develops two concepts to capture this process. The first is appropriation without consumption: a mode of use in which works are not read, viewed, or listened to, but only mined for statistical features -- a use that is legitimated under Article 30-4 of the Japanese Copyright Act. The second is the invisible teacherisation of translators: the process by which translators, through the construction of translation memories, post-editing, and quality assessment, have functioned as teachers of AI without recognition as such. Drawing on the data supply chain that runs from translators through language service providers (LSPs) and platforms to model developers, on a comparative reading of Japanese, European, and United States legal frameworks, on the distinction between open and proprietary AI models, and on the premium status that human-generated data has acquired in the era of model collapse, the paper asks what translators are actually afraid of, and points toward concrete directions for redistributive design.


翻译:本文考察了译者的劳动如何被转化为人工智能时代的基础数据资本。翻译记忆库和平行语料库保留了源文本与目标文本之间的一一对应关系,因而构成了机器翻译中极具价值的监督训练数据。统计机器翻译、神经机器翻译、Transformer架构以及多语言大语言模型的发展,与这类翻译数据的积累密不可分。然而,译者的译作已被作为合同交付物购买、作为技术对象分割、并在版权法下作为"信息分析"数据处理——失去了对创作它们的译者的道义、创意和经济归属。本文提出了两个概念来捕捉这一过程。第一个是"无消费的挪用":一种作品不被阅读、观看或聆听,而仅被挖掘统计特征的使用模式——这种使用在日本《著作权法》第30-4条下被合法化。第二个是"译者的无形教师化":译者通过翻译记忆库构建、译后编辑和质量评估,在未被承认的情况下充当人工智能教师的过程。本文基于从译者经语言服务提供商和平台到模型开发者的数据供应链、对日本、欧盟和美国法律框架的比较解读、开放与专有AI模型的区分、以及在模型崩溃时代人类生成数据获得的溢价地位,探讨了译者真正恐惧的是什么,并指出了再分配设计的具体方向。

0
下载
关闭预览

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
17+阅读 · 2021年4月16日
专知会员服务
28+阅读 · 2020年9月9日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
【Facebook AI】低资源机器翻译,74页ppt
专知
10+阅读 · 2020年4月8日
【翻译技术速递】入门教程:Trados 翻译记忆库工具
翻译技术沙龙
38+阅读 · 2019年11月28日
《机器翻译与译后编辑教学指南》于WITTA年会正式发布
翻译技术沙龙
32+阅读 · 2019年6月17日
AI 经典书单 | 人工智能学习该读哪些书
七月在线实验室
35+阅读 · 2018年1月16日
清华大学:刘洋——基于深度学习的机器翻译
人工智能学家
12+阅读 · 2017年11月13日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员