短语结构规则

1.介绍

从20世纪50年代的机器翻译和人工智能研究开始，NLP(自然

语言处理(自然语言处理)已有半个世纪的历史。存在

在这个过程中，学术界提出了许多重要的理论和方法，取得了丰富的成果。

。作者认为，在过去的二十年中，这一领域具有里程碑意义的贡献如下:

(1)复杂的特征集和统一的语法；(2)语言学研究中的词汇主义；( 3)

语料库方法与统计语言模型。这三项成果将继续对语言学、计算语言学产生巨大影响。

和NLP研究产生了深远的影响。为了更好地理解这些成就的意义，首先介绍和

两个相关事实。

2.两个事实

2.1事实之一——短语结构语法无法有效描述自然语言。

在自然语言处理中，为了识别输入句子的句法结构，首先需要

把句子中的单词一个一个剪下来，然后查字典，给句子中的每个单词一个参考。

发适当的词性；然后用句法规则把句子换行。

对其中包含的名词短语、动词短语、从句等句法成分逐一进行识别。进入

并判断每个短语的句法功能，如主语、谓语、宾语等。，及其语义角色，

最后得出句子的意义表达，比如逻辑语义表达。这是一个句法分析

整个过程。

本文首先要提到的事实是:短语结构语法(短语结构)

语法(PSG)不能有效地描述自然语言。乔姆斯基语言中的PSG研究

理论在自然语言的句法描述中扮演着重要的角色，发挥着重要的作用。

。然而，它有一些根本性的弱点，主要是因为它使用了词类和短语。

类，所以不能有效地表示和解释自然语言中的结构歧义。

问题看汉语中“V+N”的组合。如果我们把“打击、委托、调查”等等。

这个词被指定为动词(v)；把“实力、方法、盗版、甲方”这些词作为名词(

n)，并认同“打击力度”和“委托方式”是名词短语(NP)，“打击”

盗版”和“委托方A”都是动词短语(VP)，所以会有如下两个区别。

意义的句法规则:

(1)NP→VN

(2)动词短语→动词短语

换句话说，当计算机观察到文本中“V+N”词性的相邻序列时，它仍然是

不确定他们是NP还是VP。我们称这种歧义为“短语类”

型歧义”。例如:

公司正在招聘销售人员。

地球在不断地[改变v形n] VP。

再来看“n+v”的组合，也会产生短语类型模糊的规则。

是的，比如:

(3)NP→NV案例:市场调查；政治影响。

(4)S→NV例:物价上涨；情况稳定了。

其中符号s代表子句。

不仅如此，有时当机器观察到“n+v”个词类的相邻序列时，甚至

无法判断它们是否在同一个词组里。也就是说“n+v”词性序列

它可能构成名词短语NP或从句S，也可能根本不在同一个短语中。在...之后

这种歧义被称为“短语边界歧义”。这里有两个相关的例子:

中国的[铁路N建V] NP发展很快。

【中国铁路N】NP建V很快。

在前面的例子中，“铁路建设”构成了一个NP；在后一个例子中，这两个

两个相邻的单词属于两个不同的短语。这足以说明基于一个单一的标记，

PSG不能完全描述自然语言中的句法歧义。让我们来看看其中的一些。

例子。

(5)NP→V N1德N2

(6)VP→V N1德N2

其中de代表结构助词“的”。比如“VP削苹果的刀”就是NP；但是

“剥苹果皮”NP是VP。既有短语类型的歧义，也有短语的歧义。

边界模糊。例如，两个相邻的单词“peel V apple N”可能形成一个单词。

VP，也可能在两个相邻的短语中。

(7)NP→P N1德N2

(8)PP→P N1德N2

规则中的p和PP分别代表介词和介词短语。比如《PP的封印【到上海】

大象”是NP；而“for[上海学生] NP”是PP .相邻词“对P沪N”

它可能形成一个PP，也可能是两个短语。

(9)NP→NumP N1德N2

其中NumP代表数量短语。虽然规则(9)代表一个NP，但它可以单独替换。

表二结构含义:

例如，五个[公司的雇员] NP。

(9b) [NUMP N1] NP Den2例如，[五家公司] NP员工。

(10)NP→N1 N2 N3

规则(10)也表示一个NP，但是先组合“N1+N2”，或者“N2+N3”。

首先，会有两种不同的结构方式和含义，即:

(10a)【n 1n 2】npn 3如:【现代汉语】NP词典。

(10b) N1 [N2n3] NP比如新版【汉语大词典】NP。

上面讨论的第一个事实表明:

由于缺乏约束力，单一标记的PSG规则不能完全解决短语类型和

短语边界模糊。在数学术语中，PSG规则是必要的，但还不够。

。所以机器只是根据右边的一个词性序列来判断一个规则是否短。

语言，或者任何短语，都有一些不确定性。

利用复杂特征集和词汇主义方法重构自然语言的语法体系是

全球语言学家在过去二十年中所做的最重要的努力。

2.2事实2-短语结构规则的有限覆盖范围

通过对大规模语料库的考察，发现一种语言中短语规则的分布符合

齐夫定律。Zipf是统计学家和语言学家。他提出，如

如果你计算一个语言单位(不管是字母还是单词)，把这个语言单位放进去

一个语料库的频率记为F，按频率降序排序。

每个单元格被分配一个整数秩R。结果是R和F的乘积大约为

一个常数。也就是

F…w│w│w)。

..p (w [，n] │ w...w │ w的条件概率，等等。不

很难看出为了预测单词W │ W [，1]) II [，I = 3，…，n]P(w[，i]。

│w[，i-2]w[，-1]) (5)

统计语言模型的方法有点像天气预报。概率参数的大规模估计

语料库就像一个地区多年积累的气象记录，用三元模型来造天

天气预报就像是根据前两天的天气情况来预测当天的天气。天气预报什么时候

但是，不可能百分百正确。这也是概率统计方法的一个特点。

3.3.1语音识别

语音识别作为一种替代计算机键盘输入汉字的方式，越来越受到人们的信任。

各界人士的兴趣。所谓的听写机就是这样一种商品据报道，中国的移动电

随着手机和个人数字助理(PDA)的普及，电话用户数量已经超过1亿，尤其是

当这些便携设备可以无线上网时，对用户来说更为迫切。

我希望通过语音识别或手写板代替键盘输入短文本信息。

实际上，语音识别的任务可以看作是计算下列条件概率的最大值的问题:

W[*]=argmax[，W]P(W│语音信号)

=argmax[，W]P(语音信号│W)P(W)/

语音信号

=argmax[，W]P(语音信号│W)P(W) (6)

公式中的数学符号argmax[，w]表示对不同的候选词序列W计算条件概率P (W)

│语音信号)，使W[*]成为条件概率值最大的一个。

词序列，这是计算机选择的识别结果。换句话说，通过公式(6)

通过计算，计算机找到了最适合当前输入语音信号的单词串W[1。

*]。

等式(6)的第二行是贝叶斯定律音译的结果，因为条件概率p(

语音信号│W)更容易估计。公式的分母P(语音信号)对

给定的语音信号是常数，不影响最大值的计算，所以可以从公式中删除。

除了。在第三行显示的结果中，P(W)是上面提到的统计语言模型，即

一般采用式(5)所示的三元模型；p(语音信号│W)称为声学模型。

至此，读者可能已经明白，汉语拼音输入法中的拼音-汉字转换是任意的。

其实服务也是用同样的方式实现的，两者使用的中文语言模型是二进制的

或者三元模型)是同一个模型。

目前市面上的听写机产品和微软拼音输入法(3.0版)都是用单词的。

三元模型的实现几乎完全不需要句法语义分析。因为根据可比较的评论，

测试结果表明，采用三元模型实现的拼音汉字转换系统的错误率高于其他产品

减少50%左右。

3.3.2词性标注

同义词库中大约有14%的单词类型有一个以上的词性。在语料库中，

占总字数30%左右的词，词类不止一个。所以对于每一个文本

一个词的词性标注就是通过语境的约束来实现词性歧义的消解。日历

历史上有过两个自动词性标注系统。一种是使用上下文相关的规则。

然后叫做TAGGIT(1971)，另一个应用词性的二元模型叫做CLAWS(

1987)(见Garside等人1989)。两个系统分别用于评测654.38+0万单词的英语。

对不受限制的文本实施词性标注。结果表明，爪子与统计语言模型

该系统的标注精度远高于基于规则方法的TAGGIT系统。请看下表。

比:

系统名称Taggit(1971)CLAWS(1987)标注号86 133方法3000 CSG规则隐马尔可夫模型标注准确率77% 96%测试语料库Brown LOB。

设c和w分别代表词性标记的顺序和词的顺序，那么词性标注的问题就可以看作是一个方案。

计算下列条件概率的最大值:

C[*]=argmax[，C]P(C│W)

=argmax[，C]P(W│C)P(C)/P(W)

≈argmax[，C]ⅱ[，i=1，…，n]P(w[，i]│c[，i])P(c[，i]│c[，I

-1]) (7)

其中P(C│W)是已知输入单词序列W时，词性标记序列C出现的条。

计件概率。数学符号argmax[，C]表示通过检查语音标记序列C的不同候选部分

来寻找最大化条件概率的词性标记序列C[*]。后者应该是

w的词性标注结果。

公式的第二行是贝叶斯定律音译的结果，因为分母P(W)给定了

w是常数，不影响最大值的计算，可以从公式中删除。然后面向大众

近似分析的类型。首先引入独立性假设，认为任何一个单词w[，i]都是出来的。

现在的概率近似只与当前词的词性标记c[，i]有关，而与周围(语境)有关。

词类标记无关紧要。那么词汇概率可以计算如下:

P(W│C)≈ⅱ[，i=1，…，n]P(w[，i]│c[，i]) (8)

其次，采用二元假设，即近似考虑任意词性标记c[，i]的出现概率。

只和它的前一个词性标记c[，i-1]有关。规则

P(C)≈P(c[，1])ⅱ[，i=2，…，n]P(c[，i]│c[，i-1]) (9)

P(c[，i]│c[，i-1])是词性标记的转移概率，也叫基于词性的对偶。

模型。

这两个概率参数可以通过带有词性标签的语料库来估计:

P(w[，i]│c[，i])≈count(w[，i]，c[，i])/count(c[，i])(

10)

P(c[，i]│c[，i-1])≈count(c[，i-1]c[，i])/count(c[，i-1]

) (11)

根据文献报道，使用统计语言模型方法，汉语和英语的词性标注是正确的。

率可以达到96%左右(白帅虎1992)。

3.3.3介词短语PP的附着歧义

在英语中，介词短语是否附在前面的名词或动词后面是一个句子。

法律分析中常见的结构歧义问题。下面的例子说明了如何用语料库方法解决这个问题。

一个问题，这种方法可以达到多高的正确率。

例如:皮埃尔·文肯，61岁，以董事身份加入董事会。

非执行董事。

设a = 1表示名词附着，a = 0表示动词附着，那么就可以表达上例的PP附着问题。

用于:

(A=0，V =已加入，n 1 =板，P=as，N2 =控制器)

设V，N1，N2分别代表动词短语、宾语短语和宾语短语的中心词。

并且在带有句法标签的语料库(也称为树库)中统计后面的四元组的概率。

P[，r]:

P[，r]=(A=1│V=v，N1=n1，P=p，N2=n2) (10)

判断输入句子PP附着的算法如下:

如果p [，r] = (1 │ V，n1，P，n2)≥0.5，

则判断PP附着在n1上，

否则，确定PP附着在v上。

柯林斯公司。Brooks(1995)实验中使用的语料库由宾夕法尼亚大学标注。

WSJ树库，包括:20，801个四元组的训练集，测试。

尝试设置3097个四边形。他们对PP附件的自动测定精度的上限和下限提出了以下几点。

分析:

全部视为名词附加(即A ≡ 1) 59.0%

只考虑了介词P最常见的附着的72.2%。

三位专家只根据中心四个字判断了88.2%。

三位专家根据整句判断93.2%。

很明显，自动判断准确率的下限是72.2%，因为机器不会比只考虑句子更好。

介词p最常见的附着更差；上限是88.2%，因为机器比不上三。

专家根据这四个中心词做出更好的判断。

该论文报告说，在测试的3097个四边形中，系统正确地判断出四边形。

是2606，所以平均准确率是84.1%。这与上述88.2%的上限不同

相比之下，应该说是相当不错的成绩了。

4.结论

语言学家的努力，无论是使用复杂的功能集和统一的语法，还是词汇主义。

方法都是在原有的所谓理性主义框架下做出的伟大贡献。词汇法

方法尤其值得称赞，因为它不仅提出了更细粒度的语言知识表示方法。

式，同时也体现了一种渐进式发展和语言知识积累的新思路。特别值得重视。

看来语料库和统计方法在很多词汇资源的开发中起到了很大的作用。

的作用。这也是经验主义和理性主义融合的可喜开端。笔

研究者认为，语料库方法和统计语言模型是目前自然语言处理技术的主流。

它们的实用价值已在许多应用系统中得到证明。统计语言模型研究，

特别是在结构化对象的统计建模方面，还有广阔的发展空间。

参考资料:

阿尔茨，简& amp威廉·迈斯(编辑。).1990.语料库语言学:

理论与实践〔C〕阿姆斯特丹:罗多皮。

柯林斯，m .和j .布鲁克斯。1995.介词短语

通过后退模型〔P〕的连接。在会议录中

第三届超大型语料库研讨会。马萨诸塞州剑桥。

Garside，r .，G. Leech和G. Sampson(编辑).1989.这

英语的计算分析:基于语料库的方法。

伦敦:朗曼。

罗得岛州哈德森市1991。英语单词语法〔M〕剑桥，

质量。:巴兹尔·布莱克威尔。

白帅虎，1992，汉语词性自动标注系统研究[〔马〕]。清华大学计算

机械科学与技术系硕士学位论文。

董振东和董强，1997，知网[J]。语言文字应用第三期。

于等，1998，《现代汉语语法信息词典》[M]。北京:

清华大学出版社。