哆啦A梦的翻译魔芋是什么原理,现有的科技可以解释吗?

从自动翻译系统的角度来看,翻译魔芋只能做到有限的翻译,语言的完全翻译是一个无解的东西。下面的文字主要是用于证明这样一个观点:由于两种不同语言,其语义空间无法完全相互覆盖,所以在翻译中会有一些词汇难以做到很好的翻译。


2019.4.7 更新:

事实上相关设定表示:

翻译魔芋的原理是内置万国词典。

以及原作本身表现出了翻译魔芋的局限性:

会話だけでなく、あらゆる言語で書かれた文章を読むこともできる。さらには地球人の言語のみにとどまらず、動物宇宙人ロボットなどの言語も翻訳できるなど、用途は広い。また、弥生時代といった古い言語についても対応している。しかし、中には対応していない言語も存在する(『のび太と竜の騎士』のナンジャ族など)。ただし『ドラえもん のび太の魔界大冒険』でコンニャクを食べた美夜子がネコの姿で人間の言葉をしゃべれるようになったものの、神官の秘術文字の解読は出来なかったことから、一つのコンニャクで一つの言葉にしか対応していない可能性もある。
——Wikipedia

上面这段话提出一些语言翻译的确存在不准确的问题,说明我的推测是正确的。如果翻译魔芋是基于词典的自动翻译系统,那么它就存在我说的局限性。


2019.4.7 原文:

首先我们抛开翻译魔芋的特殊性质,讨论其本质表现,即“当两个人中的其中一个吃下翻译魔芋之后,能和另外一个人对话”的性质。

首先根据原文:

推测出一个事实,就是翻译魔芋的翻译是存在在语言层面的,而不是语言之上的某个层面,比如说精神交流。

目前我们人脑处理语言,是基于语义的。也就是遵循这样一个过程:A语言——语义——B语言。也就是说人脑要反应过来A语言表达了什么,然后想办法用B语言去表达它。

现在的翻译模型,也是这样的模式。

但是并不是所有的语义都能很好地被翻译出来,这不仅是自动翻译系统的问题,也是全世界人类翻译共有的问题。现在世界上各种主流语言,虽然正在发展,但总体是成熟的语言。如果我们要使用这一门语言,那么就必须要尊重这门语言的规则。语言的规则包括词汇、语法等。无论语言是怎么发展过来的,其体系已经大致确定。

但是,因为文化背景差异,我们会惊奇地发现,总有一些词在一门语言中很好表示,在另一门语言中表示很困难,甚至没有对应的词去表示。

在自然语言处理的范畴,我们翻译的词汇对应过程为“对齐(Alignment)”。

Bitext word alignment or simply word alignment is the natural language processing task of identifying translation relationships among the words (or more rarely multiword units) in a bitext, resulting in a bipartite graph between the two sides of the bitext, with an arc between two words if and only if they are translations of one another. Word alignment is typically done after sentence alignment has already identified pairs of sentences that are translations of one another.
——Wikipedia

在现实生活中我们能见到一些无法在别的语境里很好描述的词,比如说:

侘寂,幽玄,物哀

这几个词都和日本传统文化息息相关,我们甚至想象不出来别的语言里能有准确的词汇与其对应。

再比如说中医领域的:

上火,伤寒,经络,阴阳

以及中国传统节气:

春分,白露,谷雨,清明,小寒

或者是中国选官制度:

九品中正制,三公九卿

我相信这些词汇都难以在英文中找到对应的词语,因为它们和中国文化紧密相关。

现在的翻译,有一个重要工作就是研究这些词的翻译,是需要经过大量考证,才能偶然得到一些信达雅的翻译,更多情况下只能用拼音造一个词出来,然后用英文去不准确地描述它。所以语言本身在不断发展变化,通过达成跨文化共识拓展新的词汇,这样才能为后续翻译提供方便。

但是自动翻译系统很明显是不存在拓展语言本身的权限和功能的。也就是说遇到这种情况的时候,自动翻译系统是没法翻译的。我们来假设这样一个情景:

A:北冥有鱼,其名为鲲。鲲之大,不知其几千里也。

B:There is a fish in the north, which is called Kun. I don’t know how many thousands of miles it is.

B:????

显然,B要理解这句话,是需要对A的文化背景有了解的,很多词语并不存在于B的认知里。

现代人类翻译通过发展语言解决这个问题,而且即使语言发展了,很多概念仍然只存在于相关行业人士里。说白了,语言这种巴别塔,就是让人类注定无法互相理解的

综上所述,自动翻译系统是没有办法解决语义空间不同的问题的,所以无法做到自如翻译。

顺带一提,现在的自然语言处理模型,如果遇到了之前训练中没见过的词,会用<UNK> token替代,这类词语被称为OOV词语(Out-of-vocabulary)。OOV词语目前其实并没有一个行之有效的解决办法把它消除掉,所以要期待22世纪能有这玩意,得看技术爆炸了。

来源:知乎 www.zhihu.com

作者:知乎用户(登录查看详情)

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 16 个回答,查看全部。
延伸阅读:
哆啦A梦的翻译魔芋是什么原理,现有的科技可以解释吗?
以当前科技水平,还存不存在正在被人类使用却不知道其原理的东西?