当前位置:刘伯温马会内部资料 > 杨绛 >

谷歌翻译杨绛《我们仨》的背后是资深语言学家揭秘谷歌翻译之「不

  原标题:谷歌翻译杨绛《我们仨》的背后,是资深语言学家揭秘谷歌翻译之「不能」

  本文出自一位熟练掌握中、法、德、英四国语言的资深译者之手。作者以语言学的视角揭示了谷歌翻译之「不能」。

  周末,在我们每周的 Salsa 舞蹈课上,朋友 Frank 带了一位丹麦客人。我知道 Frank 会说丹麦语,因为他妈妈就是丹麦人,小时候,还曾在丹麦生活过。他的这位朋友,按照斯堪的纳维亚半岛人说英文的标准,这位朋友的英文说的算是流利。

  然而,令我惊讶的是,在晚上闲聊的时候,二人却在利用谷歌翻译通过邮件进行交流。Frank 用英文写一段话,用谷歌翻译成丹麦语;而她则是用丹麦语写一段话,然后再用谷歌翻译成英文。

  太奇怪了!两个知识分子,互相都会说对方的语言,为什么要这样做呢?一般来说,机器翻译会带给我很大的苦恼,但这二人显然没有这方面的问题。事实上,许多人士都对翻译项目有很大的兴趣,对翻译软件的指摘很少。这让我困惑不已。

  作为一个语言爱好者、认知科学家、对人类意识的微妙拥有终生执念又热爱翻译的人,十多年来,我一直在关注着机器翻译。20 世纪 70 年代中期,我开始对这一学科产生兴趣,当时我偶然间看到一封早期机器翻译倡导者,数学家 Warren Weaver 在 1947 年写给控制论权威 Norbert Wiener 的一封信。在这封信中,Weaver 说了一段在今天很著名的话:

  当我看一篇俄文文章时,「它实际上是用英文写的,但它用一些奇怪的符号进行了编码。而我现在正在对其进行解码。」

  几年以后,他表达了一个不同的观点:「理智的人绝对不会认为机器翻译能够做到文字的雅致和风格的统一。所以普希金们一点也不必害怕。」

  我曾有过生命中一段难忘的时光,我将亚历山大·普希金著名的诗体小说《欧根奥涅金》译成我的母语(也就是大胆的将俄罗斯伟大的作品翻译成英文诗体小说),我发现 Weaver 此时的言论与他更早期的言论具有很大的相似性,它揭露了语言一个看似奇怪但却很简单的特质。不过,他在 1947 年表达的,将翻译比喻成解码的观点长期以来成为了推动机器翻译前进的信条。

  经过多年的发展,「翻译引擎」不断得到改进。最近,「深度神经网络」的应用让一些意见领袖们(如《纽约时报》Gideon Lewis-Kraus 的著作《人工智能大觉醒》以及《经济学人》Lane Greene 的著作《Machine Translation: Beyond Babel 》)断言人类翻译工作者可能将不再存在。在这种情况下,要不了几年,人类翻译工作者将从事的只是一些质量控制和译文修改的工作,而不再直接参与翻译。

  这种发展对我的精神世界造成了巨大的冲击。尽管我完全理解采用机器进行翻译的优势之处,我却并不想人类译者被毫无生气的机器取代。机器翻译取代人工译者的观点着实让我惊恐。在我看来,翻译是一门极为细致的艺术,不仅需译者多年之功力积累,译者还需有创造性的想象力。如果真有这么一天,人类翻译工作者成为了历史,我对人类意识的尊崇将受到极大的冲击,这种冲击将会让我产生极大的困惑,给我带了无尽的悲伤。

  一些文章称在新技术的强势冲击下,人类译者将被迫屈服,每次读到这种文章,我都有想要亲自核查一下这种论断的欲望,部分原因是出于对这种噩梦很快就将到来的恐惧。不过,更多的确认以上这种情形的到来还为时尚早,更长远的目标是要与过度夸大的人工智能论断进行反击。

  人工神经网络早就被提出来了,只是最近被谷歌的一个部门 Google Brain 利用,又通过「神经网络」进行改进,做出了一个新型的软件,声称会对机器翻译产生革命性的影响。在读到这种观点以后,我决定对最新版的谷歌翻译进行一下检验。它真的会像 Deep Blue 和 AlphaGo 对象棋和围棋的作用那样成为翻译的变革者吗?

  我了解到,尽管旧版的谷歌翻译可以处理很多种语言,但新的深度学习版本仅仅支持九种语言。相应地,我对谷歌翻译的检验只限于英语、法语、德语和中文。

  在展示我的发现之前,我想首先对形容词「深度」的模糊性进行探讨。当听到谷歌收购了一家从事「深度神经网络」的公司 DeepMind 之后,人们不禁会认为「深度」一词的意思为「深刻」,然后是「强大」,「智慧」。但「深度」一词在此语境下意味着神经网络比以往的网络有更多层(据说是 12 层)。以往的网络可能只有 2-3 层。但这类深度能说明这种网络一定要深刻吗?恐怕很难这样说。它只是一种媒体公关而已。

  我对谷歌翻译一直存有很大的疑惑,尤其是在各种虚夸不断的情况下。尽管我对这种虚夸很是厌恶,但在有些方面还不得不承认谷歌翻译的优越之处。世界上的所有人都可以免费使用谷歌翻译,大约可以翻译 100 种语言。如果我以自己能说三种以上语言感到自豪的线 种语言的谷歌该是多么自豪啊。对于懂三门语言的人来说,能懂 100 种语言的确是很了不起的。而且,如果我粘贴复制一页文字放进谷歌翻译,只需一瞬间的功夫我就能拿到另外一种语言的版本。在世界各地都能完成多种语言之间的转换。

  我们无法否认谷歌翻译和类似技术的实用性,它总体上是一件好的事情,但是这种方法有一个很大的欠缺之处,用一个词概括就是:理解。机器翻译根本无法理解语言。相反,这个领域一直试图在「解码」,根本不关注理解和意思。为了翻译好文章,难道不需要理解吗?一个实体、人抑或机器,如何不了解一门语言,能呈现高质量的翻译吗?为了解决这个问题,我接下来会谈一下我自己的经历。

  翻译这句话似乎难度不大,但在法语(以及其它罗曼语族的语言)中,「his」和「her」的所有格有性的变化。采用谷歌翻译的译文如下:

  虽然每个人类读者都能明白这句话的意思,谷歌翻译的结果却落入了我的圈套。这句话描写的是一对夫妇,强调男方有的东西女方同样也有相同的一个。

  例如,深度学习引擎使用「sa」均修饰「他的车」和「她的车」,因此,你无法通过译文了解汽车所有者的性别。同样地,译文使用无性别的复数「ses」修饰「他的几个毛巾」和「她的几个毛巾」,最后是两个书柜,他的和她的,「her」后面直接加了一个「s」表示她的书柜。而谷歌翻译成法语时却完全理解错了。

  下面是我自己将这句话翻译成了法语,原文的意思得到了很到的保留。以下是我的版本:

  「sa voiture à elle」这个短语可以表达出「她的车」的意思,同样地,「sa voiture à lui」也能表达出「他的车」的意思。在这点上,我觉得让谷歌翻译把我的译文回译称英文不会是什么难事,应该可以完整的表达出户愿意。可是我完全想错了。谷歌翻译回译的译文如下:

  怎么会这样?即使句子清楚的表明了所有者的性别,翻译机器还是忽略了这一点,所有的词性都变成了阳性。这句话最重要的信息为何会遗漏掉了呢?

  我们人类知道夫妻、房子、个人物品、骄傲、竞争、嫉妒、隐私以及其他的一些无形的事物意味着什么,一对已婚夫妻在毛巾上绣上「他」和「她」不免让人感到奇怪。而谷歌翻译对这种情况不熟悉,它所熟悉的只是字母组成的单词,以及单词组成的句子。它只是对文本进行超快速度的处理,而不会进行思考、想象、记忆或者理解。它甚至不知道每个单词所代表的事物。我并不否认计算机程序知道语言的作用,有想法,会记忆,还能利用经验,但是谷歌翻译设计的初衷并不在此。计算机的这些作用甚至都没有出现在设计者的考虑范围内。

  看到谷歌翻译的表现,我是大跌眼镜,同时也不禁松了一口气,人类译者要被自动化取代恐怕还有很长的路要走。但我仍觉得,我应该对谷歌翻译做进一步的测试。毕竟「一口水无法解渴」(One swallow does not thirst quench.)。

  我们干脆就用这句「One swallow does not thirst quench.」进行测试吧。谷歌翻译回复给我「Une hirondelle n’aspire pas la soif.」这是一句符合语法规范的法语,但是它确实没有什么深意。首先,它将多义词 swallow 翻译成了燕子(une hirondelle),然后它说这只燕子没有在「吞咽」(n’aspire pas),最终用一个既非「吮」也非「吸」的动作 la soif 描绘 thirst(干渴)。很显然,谷歌翻译并没有理解我的意思,基本上没有传递任何深意。

  测试过了法语,现在我们再来用德语测试一下。最近,我沉迷于奥地利数学家 Karl Sigmund 的一本书《Sie nannten sich der Wiener Kreis》(英文名为《They Called Themselves the Vienna Circle》)。它描述了 20 世纪二三十年代维也纳一群有理想的知识分子,这群人对以后的哲学和科学产生了很大的影响。我从 Sigmund 的书中选取了一小段用谷歌进行了翻译。以下三段话中,第一段是德文原文,然后是我自己的翻译,最后是谷歌翻译的版本。(顺便说一下,我找了两位说德语的人对我的译文进行校对,其中就包括 Karl Sigmund,所以说你可以暂定我的翻译时正确的。)

  谷歌翻译后的单词都是英文单词(只是有些单词的首字母是大写,其实并不必要。)从整体上来看还是不错的。但越仔细看,越觉得翻译的惨不忍睹。

  我们首先谈一下「odd」(奇数),它对应的德语是「die ‘Ungeraden」,在原文中它指代「没有政治意愿的人。」然而,谷歌翻译还是将其翻译成了「odd」. 可能是因为,在谷歌翻译强大的双语数据库中,「ungerade」一般都是翻译成「odd」,基于统计,在本文中也就翻译成了「odd」。

  尽管谷歌翻译无法意识到为什么要这样翻译,我却可以告诉你原因。这是因为「ungerade」,字面的意思是「不直的」或者是「不平的」。反观我将「Ungeraden」翻译成「undesirables」,从统计上来说几乎没有这样的翻译,但确实我对原文本理解后得出的结果——这个翻译时我对原文本中隐含意思的理解后得出的,在任何德语字典上「ungerade」都没有这种翻译。

  再来看一下另外一个德语单词「Habilitation」,它指代的是一种大学的职称,类似于终身教职。「habilitation」在英文中也有同源词,但极为少见,但与终身教职或类似的意思毫不相关。这就是为什么我选择对这个词进行简单的解释,而没有选择直译。因为直译会让读者一头雾水,不知所以。但谷歌翻译绝不会这样做,因为它无法了解读者的知识水平。

  最后两句话正证实了理解对翻译而言是多么重要的一件事。「Wissenschaftler」,这个德语单词既可以指「科学家」也可以指「学者」(我倾向于后者,因为原文中一般指知识分子,而谷歌不会注意到这种细微的差别。)

  「Wissenschaftlerin」在原文的最后一句话是以复数形式「Wissenschaftlerinnen」出现的,因为在德语中,名词有性的变化。「短」的名词在语法上是阳性的,指代男性学者,较长的名称是阴性的,只指代女性。为了让读者理解,我翻译成了「女性学者」,而谷歌翻译并不理解「-in」指代的是阴性后缀。因为谷歌翻译没有意识到女性应该被指明,所以还是翻译成了「科学家」,使得整个句子的意思全变了。同法语的测试一样,谷歌翻译无法知晓德语句子的重要属性是区分阴阳性。

  除了上面的错误之外,最后一句话其它部分的翻译错的更是一塌糊涂。先看前半句,「scientists did not question anyway」真的是「Wissenschaftlerinnen kamen sowieso nicht in frage」这句话的译文吗?译文不仅没有表达出原文的意思,翻译的简直是风马牛不相及。它只是对德语进行僵硬的转换,这怎么能够称得上是翻译呢?

  这段话的后半部分同样错的离谱。最后六个德语单词,直译过来就是「over little was one more united」,表达的再流畅一点就是「there was little about which people were more in agreement,」本来表达的很清楚的观点,谷歌翻译却翻成了「There were few of them.」我们人类可能会问「Few of what?」但机械地倾听者可能会觉得这个问题毫无意义。翻译机器不会有想象。它所做的只是单纯的翻译,而不会去考虑这个概念究竟象征着什么意思。

  人类对文字的使用有很多的经验,能理解并知道如何使得文字表达有意义,让人类去理解谷歌翻译的内容为何如此空洞是一件很难的事情。几乎所有人都会认为,软件要想流利地处理文字,一定要知道文字的意思才行。这种对人工智能相关的经典假设被称为「伊莉莎效应」(eliza effect:指的是人可以过度解读机器的结果, 读出原来不具有的意义)。20 世纪 60 年代,一个被称为 eliza 的项目,欺骗他人说它懂英文,实际上它只会说一些无用的空话,它假装是一名心理治疗师,让与它进行互动的人产生以后总异样的感觉好像它能懂得别人内心的想法。

  十多年来,有经验的人,甚至是一些人工智能研究人员都陷入了伊莉莎效应。为了确保读者能完美避开这个陷阱,我先引用几段文章中的几句话,即「谷歌翻译不理解」,「它没有意识」以及「谷歌翻译没有任何想法」。可矛盾的是,尽管谷歌翻译无法理解东西,这些句子也几乎说明,谷歌翻译至少能够理解一个单词、一个短语或者一个句子的意思,或者知道它所讲的大致是什么内容。但事实上,谷歌翻译并不想要理解一门语言。

  对于我个人来说,「翻译」并不神秘,也不高大。它是人类的一门艺术形式,将一种语言的观点想法流畅地转换成另外一门语言,它发挥的是一种桥梁的作用,因此,翻译不仅要表意清晰,而且应该保留原作者写作的风格。无论什么时候做翻译,我都是先仔细阅读一下原文本,尽可能清晰的将原作者的想法进行内化,把这种想法存在我的脑海中,在大脑中构建出一幅相关的图景。无须多言,这种想法都是无意识的。一旦这种图景在我的头脑中被激活,我就开始尝试用另外一种语言进行表达。

  我并不是简单地字对字或者句对句的进行翻译。我会依据我个人的经验(或者读到的,在电影中看到的,或者是从朋友那里听到的经验)下意识的构建出图片、场景、想法,只有当我有了这种超出了语言表达的,经验的,精神的理解之后,只有原文的意思在我脑海中挥之不去时,我才开始用目标语言进行遣词造句,然后再进行反复的修订。相比较谷歌翻译每页只需两到三秒的翻译速度,我的这个翻译过程听起来很缓慢,不过的确也是如此,任何一个严肃的人类译者都会这样做的。当我听到「深度意识」这个短语时,我以为机器也是这样做的。

  然后,我又采用中文进行测试,相较于以上两种欧洲语言,中文对深度学习软件来说会更加的难以驾驭。至于测试材料,我选用的是中国著名的剧作家和翻译家杨绛先生的深情作品《我们仨》,杨绛先生活了 104 岁,刚刚离世不久。这本书记录了她和丈夫钱钟书以及女儿的生活故事。这本书的语言并不晦涩,但语言很有文采。我选取了一小段让谷歌进行翻译。以下是谷歌翻译、我自己的翻译(经母语为中文的人修改)的结果:

  锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校。他仍兼管研究生。

  毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。

  事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说:

  第一点,谷歌翻译没有翻译「钟书」,尽管原文中出现了三次这个名字。第一次,谷歌翻译采用了代词「he」指代;第二次,将「钟书」翻译成了「book」;第三次「锺书惶恐地」竟翻译成了「the book of fear in the book。」完全的没有搞懂。

  第二个问题在于,第一段清楚的说了钟书在监管研究生,而谷歌却翻译成他是个研究生。

  第三个问题在于,「毛选翻译委员会」的翻译直接把的名字漏掉了三分之一。

  第四个问题是「永煐」本应翻译成「Yongying」却翻译成了「Yongjian」。

  对谷歌翻译来说,六处错误确实是不小的问题,不过抛开这些问题不谈。我关注的是一个让我很困惑的短语,就是最后一段用引号引起来的五个字 (「南书房行走」). 如果是字对字的翻译,应该翻译成「south book room go walk」,但这种翻译时肯定不能接受的,从语境来看,这是一个名词。谷歌翻译发明了一个短语「South study walking,」,不过也并没有任何帮助。

  其实我一开始也不理解「南书房行走」这个短语。虽然从字面上,它看上去是在某个建筑南面的书房里用脚移动的意思,但我知道在这里肯定不是这样,和这段话的语境毫无关联。为了翻译出来,我得查找中国文化里我还不了解的某些部分。所以我该怎么找呢?当然是谷歌一下!(但并不是用谷歌翻译。)我打入了这几个中文字,用引号把它们括起来,然后点搜索查找这个字符串。刹那间,跳出一堆中文网页,接下来就是辛苦的阅读过程,在前端十几个网页的开头几段摸索,揣摩这个短语是在说什么。

  在这个过程中,我发现这个词语可以追溯到清朝(西历 1644 年-1911 年),指代御用知识份子,也就是负责辅助皇帝(在紫禁城南书房)起草谕旨,保证文式得体。看似表示「走路」的「行走」二字,实际上是表示助手之意的部分。因此,通过谷歌搜索提供的信息,我得到了自己的表达——「南书房特别助理」。

  谷歌翻译竟然还不能像我这样用上谷歌搜索的功能也是有点不合适吧?但话又说回来,谷歌翻译也理解不了网页上的内容,虽然它可以一眨眼的工夫都翻译出来。或许其实它理解得了吗?以下展示的,是我把我得到信息的网站交给谷歌翻译后,它噼里啪啦打到我屏幕上的结果:

  这真的是英语吗?当然毫无疑问这段都是英文字(严格来说大多数是),但这样就算一个英文段落了吗?在我看来,由于上述段落文不达意,实际上不能算是英语,而只是一个用英语词作为「食材」的一团东西——一个杂乱的词语色拉,没搭配好的大杂烩。

  有读者可能怀疑我为了抨击谷歌翻译,只节选了它表现不佳的部分,也许绝大多数的文章它都能翻译地比上面好。虽然看似有理,但事实并非这样。我把我最近在读的书中选择的几乎每一个段落放到谷歌翻译中,结果都有各式各样的错误,包括没有任何意义以及以上这样无法理解的词语。

  当然我也承认,谷歌翻译有时也会翻出一些听着挺不错的句子(也不排除可能会有歧义或者误译)。可能会出来一个或两个翻得很棒的完整段落,让人产生错觉,以为谷歌翻译知道自己在干什么,理解自己「读到」的是什么。如果情况真是如此,谷歌翻译的表现似乎真是令人惊艳,都赶上人类了!这些赞美背后,其开发团队的集体奋斗功不可没。

  但与此同时,别忘了谷歌翻译是如何处理这两个中文段落以及之前的法语和德语段落的。要理解类似的失败的话需要记得伊莉莎效应。这个百国语机器从没有阅读任何内容——不是通常人类意义上的「阅读」。它其实是在处理文本,它处理的符号隔绝于现实世界的经历。它没有可提取的记忆,没有意象功能,不会理解,它迅速丢出的词语背后没有任何意思。

  一个朋友问我,谷歌翻译的技巧水平是否已经超越程序数据库的功能。他觉得如果你将它的数据库扩大到比如百万或十亿倍,最终它可以翻出任何丢给它的东西,而且质量上乘。我并不认同。就算有再大的数据量,也不见得能有助于实现理解,因为理解需要拥有概念,而缺乏概念这一点,是当下所有翻译工具出现的问题的根本所在。因此我斗胆猜测,更大的数据库——即使相当庞大——也没用。

  另一个自然而然的问题是谷歌翻译运用的神经网络——模仿大脑的一种途径——是否有助于机器对语言的真正理解。首先这值得鼓励,但目前还没有能够越过字和词的表层意义的尝试。所有关于大数据库的统计结果都包含在了神经网络中,但这些统计仅仅将字关联到其他字,没有关联到概念。

  还没有出现将概念,图像,记忆或经验串联起来的内部结构的尝试。这种思维过程还很难由计算机做到,因此作为替代,系统运用的是快而复杂的数据化组字演算法。但这种技术的成果还是比不上在阅读、理解、创作、修改以及评价一段文字时,真正有概念作用其中的效果。

  虽然我个人持消极看法,但谷歌翻译对很多人很有用:虽然它只能让 A 语言写出的快速而随意的对话中有意义的部分,转变为 B 语言中可能无意义的一串文字。只要 B 语言中的文字在某种程度上还能读懂,许多人就对最终成果相当满意了。他们得到了一种语言下某段文字的「基本概念」就挺开心了。这不是我个人对「翻译」一词的理解,但对一些人认为这就很棒了,对他们而言就是够格的翻译。好吧,我知道他们需要什么了,也明白这样他们就满足了,真让人羡慕。

  最近我看到科技爱好者做出的柱状图,用于体现手工和计算机的翻译「质量」,这些图表显示,线下的翻译程序已经快赶上人类翻译出来的效果了。但对我来说,这种量化无法量化的事物的行为明显带有伪科学的意味,或者可以说,明显带有书呆子试图将无形,微妙,艺术性的特质用数学表示的意图。

  当下谷歌翻译的输出成果良莠不齐,但我无法量化我对此的感受。再回想下我举出的第一个例子里的「他」与「她」。这个毫无概念的程序几乎把所有字都翻对了,但也就做到了这点,翻出来的文字完全没抓到原文的重点。如果是这种情况,该如何「量化」这种翻译的质量?用上看似科学的柱状图来反应翻译质量只是滥用了科学的外部体现。

  再说回人类译员的悲惨形象:怀着不久就会落后过气的担心,渐渐就只会监督质量,掰扯文字。而这是碌碌无为之人最好的秘诀。认真的艺术家不会将满是错误又俗气的废话作为素材,对其到处修改后做成名作。这不是艺术的性质,而翻译是一种艺术。

  在我多年的写作经历中,我一直坚持认为人脑是机器,一种非常复杂的机器,我也曾大力反对那些认为机器根本上无法处理意义的观点。甚至还有一个哲学流派持有计算机永远不可能掌握语义学的观点,因为计算机是「错误的东西」(硅)组成的。

  我认为这种看法草率且不成立。在此我不想对此展开辩论,但我也不想让读者觉得,我认为计算机永远不可能掌握智慧和理解。如果这篇文章让我显得有这种想法,是因为我评论的这种技术并没有尝试生产出人类的智慧。与之相反,这种技术试图绕过人类智慧,以上展示的输出段落清楚地表现出存在的巨大漏洞。

  我认为,机器在理论上没有决定性的理由无法做到思考、有创造力、幽默、怀旧、兴奋、害怕、狂喜、听天由命、满怀希望,因此能够令人称道地翻译各种语言。并没有根本性的理由否定机器可以在未来极好地翻译笑话、双关语、剧本、小说、诗歌以及像这篇这样的文章。但这一切只有在机器像人类这样很好地掌握了概念、情绪和经历的情况下才能发生。但现在是八字都还没一撇。我确实也认为这是极漫长的过程,至少是我这个人类思维深度地毕生仰慕者所热切期盼的。

  当有一天,翻译工具用英语以诗的形式创作出一本有才气的小说,用精确押韵的抑扬格四音步句,富于机智、悲怆、和声韵,然后我就知道那是我脱帽鞠躬的时候了。返回搜狐,查看更多

http://mushfiqphotos.com/yangjiang/1737.html
点击次数:??更新时间2019-05-13??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】