短语结构规则
从20世纪50年代的机器翻译和人工智能研究开始,NLP(自然
语言处理(自然语言处理)已有半个世纪的历史。存在
在这个过程中,学术界提出了许多重要的理论和方法,取得了丰富的成果。
。作者认为,在过去的二十年中,这一领域具有里程碑意义的贡献如下:
(1)复杂的特征集和统一的语法;(2)语言学研究中的词汇主义;( 3)
语料库方法与统计语言模型。这三项成果将继续对语言学、计算语言学产生巨大影响。
和NLP研究产生了深远的影响。为了更好地理解这些成就的意义,首先介绍和
两个相关事实。
2.两个事实
2.1事实之一——短语结构语法无法有效描述自然语言。
在自然语言处理中,为了识别输入句子的句法结构,首先需要
把句子中的单词一个一个剪下来,然后查字典,给句子中的每个单词一个参考。
发适当的词性;然后用句法规则把句子换行。
对其中包含的名词短语、动词短语、从句等句法成分逐一进行识别。进入
并判断每个短语的句法功能,如主语、谓语、宾语等。,及其语义角色,
最后得出句子的意义表达,比如逻辑语义表达。这是一个句法分析
整个过程。
本文首先要提到的事实是:短语结构语法(短语结构)
语法(PSG)不能有效地描述自然语言。乔姆斯基语言中的PSG研究
理论在自然语言的句法描述中扮演着重要的角色,发挥着重要的作用。
。然而,它有一些根本性的弱点,主要是因为它使用了词类和短语。
类,所以不能有效地表示和解释自然语言中的结构歧义。
问题看汉语中“V+N”的组合。如果我们把“打击、委托、调查”等等。
这个词被指定为动词(v);把“实力、方法、盗版、甲方”这些词作为名词(
n),并认同“打击力度”和“委托方式”是名词短语(NP),“打击”
盗版”和“委托方A”都是动词短语(VP),所以会有如下两个区别。
意义的句法规则:
(1)NP→VN
(2)动词短语→动词短语
换句话说,当计算机观察到文本中“V+N”词性的相邻序列时,它仍然是
不确定他们是NP还是VP。我们称这种歧义为“短语类”
型歧义”。例如:
公司正在招聘销售人员。
地球在不断地[改变v形n] VP。
再来看“n+v”的组合,也会产生短语类型模糊的规则。
是的,比如:
(3)NP→NV案例:市场调查;政治影响。
(4)S→NV例:物价上涨;情况稳定了。
其中符号s代表子句。
不仅如此,有时当机器观察到“n+v”个词类的相邻序列时,甚至
无法判断它们是否在同一个词组里。也就是说“n+v”词性序列
它可能构成名词短语NP或从句S,也可能根本不在同一个短语中。在...之后
这种歧义被称为“短语边界歧义”。这里有两个相关的例子:
中国的[铁路N建V] NP发展很快。
【中国铁路N】NP建V很快。
在前面的例子中,“铁路建设”构成了一个NP;在后一个例子中,这两个
两个相邻的单词属于两个不同的短语。这足以说明基于一个单一的标记,
PSG不能完全描述自然语言中的句法歧义。让我们来看看其中的一些。
例子。
(5)NP→V N1德N2
(6)VP→V N1德N2
其中de代表结构助词“的”。比如“VP削苹果的刀”就是NP;但是
“剥苹果皮”NP是VP。既有短语类型的歧义,也有短语的歧义。
边界模糊。例如,两个相邻的单词“peel V apple N”可能形成一个单词。
VP,也可能在两个相邻的短语中。
(7)NP→P N1德N2
(8)PP→P N1德N2
规则中的p和PP分别代表介词和介词短语。比如《PP的封印【到上海】
大象”是NP;而“for[上海学生] NP”是PP .相邻词“对P沪N”
它可能形成一个PP,也可能是两个短语。
(9)NP→NumP N1德N2
其中NumP代表数量短语。虽然规则(9)代表一个NP,但它可以单独替换。
表二结构含义:
例如,五个[公司的雇员] NP。
(9b) [NUMP N1] NP Den2例如,[五家公司] NP员工。
(10)NP→N1 N2 N3
规则(10)也表示一个NP,但是先组合“N1+N2”,或者“N2+N3”。
首先,会有两种不同的结构方式和含义,即:
(10a)【n 1n 2】npn 3如:【现代汉语】NP词典。
(10b) N1 [N2n3] NP比如新版【汉语大词典】NP。
上面讨论的第一个事实表明:
由于缺乏约束力,单一标记的PSG规则不能完全解决短语类型和
短语边界模糊。在数学术语中,PSG规则是必要的,但还不够。
。所以机器只是根据右边的一个词性序列来判断一个规则是否短。
语言,或者任何短语,都有一些不确定性。
利用复杂特征集和词汇主义方法重构自然语言的语法体系是
全球语言学家在过去二十年中所做的最重要的努力。
2.2事实2-短语结构规则的有限覆盖范围
通过对大规模语料库的考察,发现一种语言中短语规则的分布符合
齐夫定律。Zipf是统计学家和语言学家。他提出,如
如果你计算一个语言单位(不管是字母还是单词),把这个语言单位放进去
一个语料库的频率记为F,按频率降序排序。
每个单元格被分配一个整数秩R。结果是R和F的乘积大约为
一个常数。也就是
F…w│w│w)。
..p (w [,n] │ w...w │ w的条件概率,等等。不
很难看出为了预测单词W │ W [,1]) II [,I = 3,…,n]P(w[,i]。
│w[,i-2]w[,-1]) (5)
统计语言模型的方法有点像天气预报。概率参数的大规模估计
语料库就像一个地区多年积累的气象记录,用三元模型来造天
天气预报就像是根据前两天的天气情况来预测当天的天气。天气预报什么时候
但是,不可能百分百正确。这也是概率统计方法的一个特点。
3.3.1语音识别
语音识别作为一种替代计算机键盘输入汉字的方式,越来越受到人们的信任。
各界人士的兴趣。所谓的听写机就是这样一种商品据报道,中国的移动电
随着手机和个人数字助理(PDA)的普及,电话用户数量已经超过1亿,尤其是
当这些便携设备可以无线上网时,对用户来说更为迫切。
我希望通过语音识别或手写板代替键盘输入短文本信息。
实际上,语音识别的任务可以看作是计算下列条件概率的最大值的问题:
W[*]=argmax[,W]P(W│语音信号)
=argmax[,W]P(语音信号│W)P(W)/
语音信号
=argmax[,W]P(语音信号│W)P(W) (6)
公式中的数学符号argmax[,w]表示对不同的候选词序列W计算条件概率P (W)
│语音信号),使W[*]成为条件概率值最大的一个。
词序列,这是计算机选择的识别结果。换句话说,通过公式(6)
通过计算,计算机找到了最适合当前输入语音信号的单词串W[1。
*]。
等式(6)的第二行是贝叶斯定律音译的结果,因为条件概率p(
语音信号│W)更容易估计。公式的分母P(语音信号)对
给定的语音信号是常数,不影响最大值的计算,所以可以从公式中删除。
除了。在第三行显示的结果中,P(W)是上面提到的统计语言模型,即
一般采用式(5)所示的三元模型;p(语音信号│W)称为声学模型。
至此,读者可能已经明白,汉语拼音输入法中的拼音-汉字转换是任意的。
其实服务也是用同样的方式实现的,两者使用的中文语言模型是二进制的
或者三元模型)是同一个模型。
目前市面上的听写机产品和微软拼音输入法(3.0版)都是用单词的。
三元模型的实现几乎完全不需要句法语义分析。因为根据可比较的评论,
测试结果表明,采用三元模型实现的拼音汉字转换系统的错误率高于其他产品
减少50%左右。
3.3.2词性标注
同义词库中大约有14%的单词类型有一个以上的词性。在语料库中,
占总字数30%左右的词,词类不止一个。所以对于每一个文本
一个词的词性标注就是通过语境的约束来实现词性歧义的消解。日历
历史上有过两个自动词性标注系统。一种是使用上下文相关的规则。
然后叫做TAGGIT(1971),另一个应用词性的二元模型叫做CLAWS(
1987)(见Garside等人1989)。两个系统分别用于评测654.38+0万单词的英语。
对不受限制的文本实施词性标注。结果表明,爪子与统计语言模型
该系统的标注精度远高于基于规则方法的TAGGIT系统。请看下表。
比:
系统名称Taggit(1971)CLAWS(1987)标注号86 133方法3000 CSG规则隐马尔可夫模型标注准确率77% 96%测试语料库Brown LOB。
设c和w分别代表词性标记的顺序和词的顺序,那么词性标注的问题就可以看作是一个方案。
计算下列条件概率的最大值:
C[*]=argmax[,C]P(C│W)
=argmax[,C]P(W│C)P(C)/P(W)
≈argmax[,C]ⅱ[,i=1,…,n]P(w[,i]│c[,i])P(c[,i]│c[,I
-1]) (7)
其中P(C│W)是已知输入单词序列W时,词性标记序列C出现的条。
计件概率。数学符号argmax[,C]表示通过检查语音标记序列C的不同候选部分
来寻找最大化条件概率的词性标记序列C[*]。后者应该是
w的词性标注结果。
公式的第二行是贝叶斯定律音译的结果,因为分母P(W)给定了
w是常数,不影响最大值的计算,可以从公式中删除。然后面向大众
近似分析的类型。首先引入独立性假设,认为任何一个单词w[,i]都是出来的。
现在的概率近似只与当前词的词性标记c[,i]有关,而与周围(语境)有关。
词类标记无关紧要。那么词汇概率可以计算如下:
P(W│C)≈ⅱ[,i=1,…,n]P(w[,i]│c[,i]) (8)
其次,采用二元假设,即近似考虑任意词性标记c[,i]的出现概率。
只和它的前一个词性标记c[,i-1]有关。规则
P(C)≈P(c[,1])ⅱ[,i=2,…,n]P(c[,i]│c[,i-1]) (9)
P(c[,i]│c[,i-1])是词性标记的转移概率,也叫基于词性的对偶。
模型。
这两个概率参数可以通过带有词性标签的语料库来估计:
P(w[,i]│c[,i])≈count(w[,i],c[,i])/count(c[,i])(
10)
P(c[,i]│c[,i-1])≈count(c[,i-1]c[,i])/count(c[,i-1]
) (11)
根据文献报道,使用统计语言模型方法,汉语和英语的词性标注是正确的。
率可以达到96%左右(白帅虎1992)。
3.3.3介词短语PP的附着歧义
在英语中,介词短语是否附在前面的名词或动词后面是一个句子。
法律分析中常见的结构歧义问题。下面的例子说明了如何用语料库方法解决这个问题。
一个问题,这种方法可以达到多高的正确率。
例如:皮埃尔·文肯,61岁,以董事身份加入董事会。
非执行董事。
设a = 1表示名词附着,a = 0表示动词附着,那么就可以表达上例的PP附着问题。
用于:
(A=0,V =已加入,n 1 =板,P=as,N2 =控制器)
设V,N1,N2分别代表动词短语、宾语短语和宾语短语的中心词。
并且在带有句法标签的语料库(也称为树库)中统计后面的四元组的概率。
P[,r]:
P[,r]=(A=1│V=v,N1=n1,P=p,N2=n2) (10)
判断输入句子PP附着的算法如下:
如果p [,r] = (1 │ V,n1,P,n2)≥0.5,
则判断PP附着在n1上,
否则,确定PP附着在v上。
柯林斯公司。Brooks(1995)实验中使用的语料库由宾夕法尼亚大学标注。
WSJ树库,包括:20,801个四元组的训练集,测试。
尝试设置3097个四边形。他们对PP附件的自动测定精度的上限和下限提出了以下几点。
分析:
全部视为名词附加(即A ≡ 1) 59.0%
只考虑了介词P最常见的附着的72.2%。
三位专家只根据中心四个字判断了88.2%。
三位专家根据整句判断93.2%。
很明显,自动判断准确率的下限是72.2%,因为机器不会比只考虑句子更好。
介词p最常见的附着更差;上限是88.2%,因为机器比不上三。
专家根据这四个中心词做出更好的判断。
该论文报告说,在测试的3097个四边形中,系统正确地判断出四边形。
是2606,所以平均准确率是84.1%。这与上述88.2%的上限不同
相比之下,应该说是相当不错的成绩了。
4.结论
语言学家的努力,无论是使用复杂的功能集和统一的语法,还是词汇主义。
方法都是在原有的所谓理性主义框架下做出的伟大贡献。词汇法
方法尤其值得称赞,因为它不仅提出了更细粒度的语言知识表示方法。
式,同时也体现了一种渐进式发展和语言知识积累的新思路。特别值得重视。
看来语料库和统计方法在很多词汇资源的开发中起到了很大的作用。
的作用。这也是经验主义和理性主义融合的可喜开端。笔
研究者认为,语料库方法和统计语言模型是目前自然语言处理技术的主流。
它们的实用价值已在许多应用系统中得到证明。统计语言模型研究,
特别是在结构化对象的统计建模方面,还有广阔的发展空间。
参考资料:
阿尔茨,简& amp威廉·迈斯(编辑。).1990.语料库语言学:
理论与实践〔C〕阿姆斯特丹:罗多皮。
柯林斯,m .和j .布鲁克斯。1995.介词短语
通过后退模型〔P〕的连接。在会议录中
第三届超大型语料库研讨会。马萨诸塞州剑桥。
Garside,r .,G. Leech和G. Sampson(编辑).1989.这
英语的计算分析:基于语料库的方法。
伦敦:朗曼。
罗得岛州哈德森市1991。英语单词语法〔M〕剑桥,
质量。:巴兹尔·布莱克威尔。
白帅虎,1992,汉语词性自动标注系统研究[〔马〕]。清华大学计算
机械科学与技术系硕士学位论文。
董振东和董强,1997,知网[J]。语言文字应用第三期。
于等,1998,《现代汉语语法信息词典》[M]。北京:
清华大学出版社。