谁能告诉我英文翻译软件是怎么工作的?

机器翻译的基本工作原理和基本分类

机器翻译是一门基于多学科的综合学科。现代理论语言学的发展、计算机科学的进步以及信息学和概率统计的应用对机器翻译的发展和演变产生了重要影响,机器翻译的基本思想是用计算机翻译自然语言,但各种机器翻译系统采用的技术和概念不同。面对各种各样的机器翻译系统,文献中有各种各样的分类方法。根据机器翻译系统的基本工作原理,总结了机器翻译系统的分类。

1.机器翻译系统的基本类型:根据其基本工作原理,现有的机器翻译系统可以分为三种基本类型:基于规则的机器翻译、基于实例的机器翻译和统计机器翻译。

1.1.基于规则的机器翻译(RBMT):其基本工作原理是基于这样一种假设,即可以从有限的规则中推导出具有无限语言的句子。基于这一假设的机器翻译方法可以分为三类:直接翻译法、语际法和迁移法。它们都需要使用大型双语词典、源语言派生规则、语言转换规则和目标语言生成规则;区别在于语言分析的深度。比如直译法几乎不需要语言分析,中间语言法和转换法在一定程度上需要对源语言和目标语言进行分析。

1.1.1直接翻译:这种翻译方法直接将原文中的单词逐个翻译出来,翻译出来的单词按照原文的顺序排列。这是基于规则的机器翻译最早的工作方法。这种翻译方法简单直观,缺点也很明显:这种方法得到的翻译结果质量很不理想。人们已经逐渐停止使用这种直接翻译的方法。

1.1.2语际法:这种翻译方法对源语言中的字符进行透彻的语言学分析,将其转化为中间语言表达形式,然后进一步生成并输出符合目标语言语法规则的字符。这种中间语言是非自然语言,即不是任何国家和地区的人使用的语言;这是一个明确的表达。另外,中间语言不是唯一的,不同的系统使用不同的中间语言。任何语言通过中间语言翻译成任何其他语言,理论上是最高效的翻译方法。假设世界上总有n种自然语言,那么所有自然语言之间的相互翻译问题,只需要使用2n个模块的中间语言法就可以解决。在不使用中间语言的情况下,这些语言之间的翻译需要n(n-1)个模块。当n大于3时,2n小于n(n-1)。我们知道,世界上自然语言的数量远远大于3,所以2n模的数量远远小于n(n-1)模的数量。

1.1.3迁移法:这种翻译方法首先对源语言的语言进行一定程度的分析,去除语法因素,生成源语言的中间表达,然后通过转换生成目标语言的中间表达,再由目标语言的中间表达生成并输出符合目标语言语法规则的文本。目前转换法的语言分析和实现方法是三种方法中最复杂的,得到的翻译质量也是三种方法中最好的。是目前商业上最常用的翻译方法,也是商业上最成功的。

在许多基于规则的机器翻译系统中,语言学家协助编写一系列关于源语言和目标语言的语法规则,以及将源语言数据转换为目标语言数据的转换规则。然而,手动制定这些规则非常昂贵、耗时且容易出错。一种解决方案是将过去的历史翻译结果作为资源库,其中以源语言及其对应的目标语言译文为例,试图提取适当的规则。一种方法是手动标记源文本和目标语言翻译以显示相关性。佐藤语言和高娜[1]开发了一个用“平面依存树”来表示源语言和目标语言的系统。这种关系树数据结构是一种有效的计算机识别形式。通常用两个层次来表示源语言和目标语言之间的关系:第一个层次取决于词的表层形式(如词和语序),用于源语言的分析和目标语言的生成;第二个层次取决于词与词之间的语义关联,用于从源语言到目标语言的转换。该机器翻译系统在基于规则的机器翻译的基础上,利用了案例库的优势。

随着大量历史翻译结果的积累,基于实例的机器翻译系统应运而生,人们将这些完成的翻译结果作为资源库来进行机器翻译。

1.2.基于实例的机器翻译(EBMT):其基本工作原理是从实例库中匹配与源文本片段最相似的文本片段,取出实例文本片段对应的目标语言的翻译结果,进行适当的转换,最终得到完整的翻译结果。基于案例的机器翻译的核心思想最早是由MakonNagao提出的,他建议人们在翻译简单句的时候不要进行深度的语言分析,而是进行翻译。首先将源句子分解成若干片段,然后将这些片段翻译成目标语言。每个片段的翻译是通过与例句的匹配和类推得到的。最后把这些翻译出来的句子组合成一个长句。

1.2.1.案例库的组成:案例库也称为语料库,由完整的翻译结果组成。这些现成的翻译结果也叫语料库,包括人工翻译结果和经过编辑的机器翻译结果。语料库由双语对组成,包括两部分:源语言文本片段和目标语言翻译文本片段。这些翻译结果在成为可用的语料库之前必须被分割和对齐。所以语料库也叫平行双语语料库(parallel corpus)。目前拆分对齐的形式有很多种,如句子级对齐和短语级对齐。对齐文本片段大小的选择将直接影响匹配效率和翻译结果。

1.2.2.语料库的碎片化:Nirenburg等人(1993)指出,在基于实例的机器翻译系统(EBMT)中,一个文本片段的长度和相似度之间存在矛盾。文本段越长,越难得到相似度高的匹配;文本段越短,越有可能得到粗略匹配,但得到低质量翻译结果的风险也越大。比如段落边界划分导致的重叠问题,以及划分不当导致的翻译质量下降。直观上看,选择以句子为单位划分的语料库对似乎更好,这样有很多好处,比如句子边界清晰,一些简单句的结构清晰。但在实际应用中,以句子为单位并不是最合适的方式。实践证明,匹配重组过程需要使用更短的片段(当然,这些发现是基于欧美语言之间的翻译研究。)

1.2.3.案例库的定制:案例库的范围和质量影响着《EBMT》的翻译质量。获取特定领域的高质量语料库,可以大大提高该领域机器翻译的翻译质量,这就是所谓的语料库(示例)库的定制。

1.3.统计MT:IBM的Brown在1990首次将统计模型应用于法英机器翻译。基本思想是把机器翻译看成一个有噪声的信道问题,然后利用信道模型进行解码。翻译过程被视为一个解码过程,进而成为一个寻求最佳翻译结果的过程。基于这种思想的机器翻译的关键点是定义最合适的语言概率模型和翻译概率模型,然后估计语言模型和翻译模型的概率参数。语言模型的参数估计需要大量的单语语料库,而翻译模型的参数估计需要大量的并行双语语料库。统计机器翻译的质量很大程度上取决于语言模型和翻译模型的性能。此外,要找到最佳翻译,需要一个好的搜索算法。简单来说,统计机器翻译首先建立一个统计模型,然后利用案例库中的实例对统计模型进行训练,得到翻译所需的语言模型和翻译模型。

统计机器翻译,除了基于噪声信道理论的系统,还有基于最大熵方法的系统。A.L.Berger在1996提出了自然语言处理中的“最大熵方法”。德国人弗朗茨·约瑟夫·奥奇(Franz Joseph Och)发现,将IBM统计机器翻译基本方程中的翻译模型转化为逆向翻译模型,整体翻译准确率并没有下降。因此,他们提出了基于最大熵方法的机器翻译模型。

统计机器翻译已经取得了一些成果,但是单纯的统计设计并不能解决所有的困难。统计方法不考虑语言的语义和语法因素,只用数学方法处理语言问题,有很大的局限性。于是人们开始探索统计方法和其他翻译方法的联合应用。例如基于统计和基于实例的机器翻译系统、基于统计和基于规则的机器翻译系统等等。

2.综合型机器翻译系统:

以上三种基本的机器翻译系统各有优缺点,但同时也不可避免地存在一些缺陷和局限性。例如,基于规则的机器翻译系统(RBMT)可以准确地描述语言特征和规则,但不容易制定适用和完整的语言规则。基于案例的机器翻译系统(EBMT)可以充分利用现有的翻译成果,但是案例库的维护需要大量的人力和费用。统计机器翻译(statistical MT)可以缓解知识获取的瓶颈问题,但单纯的数学方法很难完全解决语言中的复杂问题。为了进一步提高机器翻译系统的翻译水平,人们结合上述基本类型的优点,发明了混合机器翻译系统、多引擎机器翻译系统,并提出了基于知识的机器翻译系统理论。

2.1混合型MT:在翻译过程中使用了两种或两种以上的机器翻译原则。例如,基于规则的机器翻译方法的核心是构建一个完整的、适应性强的规则体系。如何得到一个完整的、适应性强的规则体系成为研究的重点。使用传统的方法,建立语法规则库需要大量的人力物力,大量的语言语法规则之间往往存在不可避免的冲突,规则的完备性和适应性无法得到保证。随着人们翻译工作的进展,产生了大量已完成的翻译结果,形成了大量的语料库。人们想到用统计的方法从现有的语料库中自动提取我们需要的语言语法信息。从实例中提取语言转换规则,以基于案例的机器翻译作为研究技术,建立语言规则的基础,而不是简单的类比翻译。通过归纳过程,从大量例句中提出抽象的规则。这样,传统的基于规则的机器翻译方法发展成为基于规则的语料库辅助的机器翻译方法。这种翻译模式可以称为混合机器翻译。

2.2多引擎机器翻译系统(MT):这种机器翻译系统的基本思想是几个机器翻译引擎同时进行并行翻译,并行翻译的这些翻译引擎基于不同的工作原理给出多个翻译结果,然后通过某种机制或算法筛选生成最优的翻译结果进行输出。多引擎机器翻译系统的一种工作模式是:在接收到源文本后,首先将文本转换成若干个文本片段,由多个机器翻译引擎并行翻译,使每个文本片段得到多个翻译结果,通过某种机制选择最优的翻译片段形成最优组合,最后输出最优的翻译结果。或者,在接收到源文本后,多个机器翻译引擎进行并行翻译,得到多个翻译结果,然后对每个翻译结果的单词进行比较,通过一些假设检验和算法,选择合适的单词翻译,形成最优的翻译结果输出。

2.3.基于知识的机器翻译:在机器翻译的研究中,人们越来越认识到正确理解和领会源语言在翻译过程中的重要性。语言有其复杂性。其中,语言的模糊性是各种机器翻译系统面临的最棘手的问题。语言的模糊性是指语言的同一表层结构对应着两种或两种以上的深层结构。简单来说,一种形式对应两种或两种以上的解释,只有通过语境内容的提示,综合知识背景和常识,才能做出正确的解释。受人工智能和知识工程发展的影响,人们开始强调对源语言更透彻的理解,提出不仅要进行深入的语言分析,还要积累和处理世界知识,建立知识库,帮助理解语言。通过对世界知识的理解,可以解决机器翻译中遇到的语言歧义问题。为了从根本上彻底解决机器翻译面临的语言模糊性问题,人们提出了基于知识的机器翻译系统。

2.3.1基于语义网的机器翻译(SWMT):是一个基于知识的机器翻译系统的实现。语义网是指通过某种技术将现有网络上的知识内容转化为机器可以识别的内容,成为机器翻译的“世界知识库”。这些理论是基于蒂姆·伯纳斯·李的观点,即“一旦定义和形式化,知识可以以任何方式获得”。万维网最初被设计成简单、分散和尽可能互动的。网络的发展证明这是一个巨大的成功。但是,网上所有的信息都是给人脑看的。为了使计算机能够接受和使用这些信息资源,在新世纪,出现了一种扩展和补充的技术,称为W3C和Semantic Web3。三维语义网的基础技术是数据格式的“'资源描述框架'”(RDF),它定义了一种结构,以自然的方式描述计算机处理的海量数据[8]。目前,人们试图将现有的机器翻译系统集成到语义网中,以充分利用世界知识/专家知识,提高机器翻译的质量。

3.语音翻译:语音翻译是机器翻译对应文本翻译的一种分类,与之前的分类不同。但它有着广泛的应用,如日常会话、电话交谈、会议发言中语音通信内容的自动翻译,在实际应用中非常重要。语音翻译在翻译前增加一个SpeechB识别过程以形成正确的文本内容输入,在翻译过程完成后增加一个语音合成过程。

形成正确的语音内容输出。其中语音识别技术和语音合成技术有专门的研究,这里不再赘述。

作者姓名:洪杰

工作单位:传神语联网网络技术有限公司多语种工程中心

作者姓名:洪磊

工作单位:中国科学院外语系