单词历史

世界发展概况

关于WordNet不成熟的想法可以追溯到20多年前,1985之后想法才开始逐渐具体化和明晰化。自1985年以来,WordNet作为一个知识项目已经如火如荼地开展起来。但是,当时的WordNet和10多年后的今天的WordNet已经大不相同了。

这个项目最初的前提之一是“可分性假说”,即一种语言的词汇成分可以被分离出来,并专门针对它进行研究。词典编纂的历史清楚地告诉我们,可以在词汇层面获得有用的研究成果。词汇当然不是完全独立于其他语言成分,但它可以从其他成分中分离出来。例如,虽然语音和语法知识是在早期生活中形成的,但词汇量可以随着智力活动的不断积累而增加。这说明语言的不同成分涉及不同的认知过程。

另一个前提是“模式假说”:一个人不可能掌握使用一种语言所需要的所有单词,除非他能利用系统的模式和意义之间的关系。至少从柏拉图的时代起,这种系统的心智模型就是一种思辨的知识,现代语言学研究已经开始在自然语言的语义结构中确定这样一种模型。然而,许多沿着这条路线的优秀研究工作在这个问题上遇到了困难。一个作者可能会提出一个语义理论,并以20到50个英语单词为例来展示他的理论,留下另外654.38+百万个单词供读者实践。

第三个前提是所谓的“全面性假设”:计算语言学要想像人类一样处理自然语言,需要存储尽可能多的词汇知识。

建立包含词义描述的大规模叙词表的方法之一是基于语义成分分析(也可译为义素分析)的成分词汇语义学方法。这样,一个词的意义被分析成更小的概念原子的组合。然而,定义一组概念原子并不容易。事实上乔治。WordNet的主教练A.Miller在他与Philip N. Johnson-Laird于1976年合作的《语言与知觉》一书中也探讨了义素分析的语义描述方法,但直到1985年,他仍然未能拿出一个完整的、定义明确的清单,在上面列出所有的概念原子。

到1985,很多认知心理学家和计算语言学家开始用“网”的形式来描述词的意义。比如“桌子”和“家具”代表两个节点,这两个节点之间有一个镖来表达桌子是一种家具的命题,即“是-一种-的”语义关系。随着这方面研究的增多,越来越多的人有意识地认识到,除了语义成分(义素分析),关系也可以用来表达语义(关系词汇语义学),而且后者有可能取代前者。

在WordNet早期,研究人员主要考虑的是关系语义能否大规模广泛应用,而不是仅仅停留在玩具演示的层面。当研究人员确信这是可行的时,他们编写了应用软件,将想法变成现实。事实上,在早期,米勒并没有一个完整的关于建立大型词库的想法。初步的想法是识别由字符串组成的最重要的词节点,并探索它们之间的语义关系模型。当时的想法是,如果获得了正确的语义关系模型,就可以从中推断出词的定义。因此,对于一个关于词义的关系网络来说,词义的定义是多余的。

在1978中,米勒描述了“自动化词典”的想法。但当时,他完全不知道如何实现这个想法。多亏了斯隆基金会、斯宾塞基金会和IBM的沃森研究中心的支持,米勒才得以一直保持自己的想法,没有半途而废。到1984,米勒甚至在IBM PC上做了一个45个名词的小型语义网,他称之为“词网”。Miller在IBM和Bellcore展示了这一成果。他在Bellcore的朋友Lance Miller,Roy Byrd,Michael Lesk,Donald Walker,Robert Amsler和Stephen Hanson鼓励他继续下去,并给了他许多实用的技术指导。

Lesk邀请Miller参加6月加拿大滑铁卢大学新牛津英语词典中心第一次会议1985 11。米勒提交了一篇论文。在那篇论文中,Miller解释了这样一种思想,我们可以用一个同义词集来表示词汇概念,描述词汇矩阵,也就是在词的形式和意义之间建立一种映射关系。事实上,这是WordNet开发中指导研究工作的主要思想。

不过,也许米勒在那次会议上的报告中介绍的观点还是第二位的,报告的标题更有意义。这个标题是由Lesk提出的,叫做:WordNet:一个字典浏览器。WordNet:词典浏览器。在这里,WordNet被视为词典浏览器,是机器可读词典的辅助工具。但是,这样的机器词典传统上不是按字母顺序排序,而是根据意义排序。

也就是WordNet初具规模的时候,米勒和一些志同道合的同事在普林斯顿联合发起了一个认知研究的项目。理查德·卡林福德在1983到1985访问普林斯顿。他、吉尔伯特·赫尔曼和米勒说服教务长尼尔·鲁登斯廷提供一台微型计算机。这台计算机成了普林斯顿认知科学实验室的核心。有了这些设备,米勒说服了海军研究办公室的苏珊·奇普曼与他们签订合同,开发WordNet。科林福德和米勒从陆军研究所获得了一份合同,开发词汇语义的计算理论。1986年3月,詹姆斯·S·麦克唐纳基金会向普林斯顿大学慷慨捐款,支持认知科学的研究工作。Marie Bienkowski(Cullingford的研究生)和一位熟练的计算机专家从1985开始就和我们一起工作,很快他们就拿出了我们需要的软件。由此,WordNet真正成为普林斯顿新成立的认知科学实验室的几个研究项目之一,并开始在实践中运作。

用来创建WordNet的最重要的程序是所谓的Grinder程序。Bienkowski在1986年用LISP语言编写了Grinder的第一个版本。丹·泰贝尔在1987用C语言重写了这个程序。安东尼奥·罗梅罗在1989又重写了一遍。Randee Tengi从1991开始负责管理程序的所有这些版本。

WordNet中的单词来自不同的地方。布朗语料库、劳伦斯·厄当的《同义词和反义词小词典》(1978)、厄当修订的《罗代尔同义词词典》(1978)、罗伯特·查普曼的《罗杰斯同义词词典》第4版(1977)等。1986下半年,米勒从海军研究与发展中心的Fred Chang那里得到了一个词汇表。Miller将Chang的词汇与WordNet现有的词汇进行了对比,令人沮丧的结果是只有15%的重叠词,于是Miller将Chang的词汇加入了WordNet。1993年,米勒得到了纽约大学Ralph Grishman和他的同事们的39143个单词的词汇表,它实际上被收录在著名的COMLEX字典中。这个比较的结果是WordNet只包含COMLEX中74%的单词。所以米勒把这个词汇加入了WordNet。

随着词汇量的增加,组织工作的压力开始增加。第一步,通过句法类别进行区分。我们创建了不同的文件来存储名词、动词和形容词(副词是在1992之后添加的)。但是每个句法类别的词还是太多,不进一步分类很难掌握。名词是最严重的问题,因为它们是开放的词类。

1987年春天,菲利普·n·约翰逊-莱尔德(Philip N. Johnson-Laird)从英国剑桥应用心理学研究所访问普林斯顿大学。他发现WordNet缺乏区分形容词修饰不同名词时词义变化的手段。他用了266对反义词形容词(当时收录在WordNet中)按照修饰名词的合适性对名词进行分类。结果共获得25个名词小类。这些小类构成了名词的基本分类。而且这些不同子类的名词还被分成不同的个体文件,交给不同的研究者分别处理,从而促进了WordNet在工程上的进步。

1987年夏天,Christiane Fellbaum加入研究团队,承担了动词的次分类工作。

描述性形容词,Kitty Miller是唯一的一个,从一开始就一直是一个大类,没有次分类,所有这些形容词也保存在一个巨大的文件中。

Wordnet从一个简单的词典浏览器发展到一个自成一体的词汇数据库,主要的进步是从1989开始的。当时SusanChipman对WordNet仅仅作为一个词汇浏览器并不满意,要求研究团队开发一个工具。这个工具可以读取基于WordNet的文本,并报告文本中单词的各种信息。这个工具叫做“单词过滤器”。可以从小说文档中过滤掉生僻字或不需要的字,而用更常见的字来代替这些字。这部作品很快让我们意识到,我们必须处理词形的曲折变化。这使我们处理一些关于词形的问题。WordNet只包含单词的基本形式。如果“ships”出现在文本中,WordNet无法识别它。Richard Beckwith和Miceael Colon编写了一个名为Morphy的程序,它可以识别文本中的单词“ships”。到1989年9月,WordNet可以处理文本中的词法变化,在词库中找到相应的单词基本形式。

上述工作导致了另一个重要的进展,即在文本中将单词与WordNet中相应的含义相关联。Claudia leak ock(1991年11月)和Brian Gustafson开发了一个interface - ConText,可以对文本进行预处理(实例化、词汇化、自动句法标注等。)并和WordNet一起显示目标词(即语义标注目标词)。1993年6月,Shari Landes负责编写了一套注释工具(包括一套标签)。有了这样的工具,可以尽可能地输出一个明确的文本。文本的语义标注显著提高了WordNet的覆盖率,包括词汇覆盖率和词义覆盖率。

WordNet的另一个重要变化发生在1989年的春天。Antonio Romero修改了Grinder程序,使其可以接受括号的定义(或者理解为“注释”)作为同义词集的一部分。随着WordNet中单词数量的增加,在保持同义词集纯度的同时尽可能清晰地区分词义变得越来越困难。换句话说,仅仅用同义词来定义一个词的意思是不够的。起初,WordNet尽量保持评论简短。但是一年后,评论开始越来越长。注释的数量也开始稳步增加。1989年4月,WordNet有37409个同义词集,无注释;到1991年7月,WordNet包含了44983个同义词和13688个注释(30%)。到6月1992 1,WordNet包含了49771个同义词集和19382个注释(39%)。到1993年6月,WordNet包含了61023个同义词集和36880个注释(60%)。到6月1994 1,WordNet包含了79542个同义词集和58705个注释(74%)。到6月1995,65438+10月,WordNet收录了91050个同义词集,75389个注释(占同义词集的83%)。

WordNet的研究人员一直将WordNet视为一个实验,而不是一个产品。所以当WordNet中有足够多的单词时,他们免费向学术界开放WordNet。Randee Tengi监督了WordNet一系列版本的发布。Wordnet版本1.0发布于1991年7月;1.1版本发布于1991的8月;1.2版本发布于1992年4月;1.3版本发布于1992年2月;1.4版本发布于1993年8月;1.5版本发布于1995年3月。目前,超过1000个人和组织加入了WordNet邮件列表。许多研究人员下载了WordNet并以不同的方式使用它。

WordNet得到了海军研究办公室、高级研究计划局、詹姆斯·s·麦克唐奈基金和最近的语言数据联盟的资助。

Word的主要功能和特点

Word == >的主要功能和特点;Word的开始和退出

-

Word的主要功能和特点可以概括如下:

(1)所见即所得。用户使用Word软件排列文档,使打印效果在屏幕上清晰可见。

(2)直观的操作界面Word软件具有友好的界面,并提供了多种工具。可以用鼠标完成选择、排版等操作。

(3)多媒体混合排版可以用Word软件编辑文字、图形、图像、声音、动画,也可以插入其他软件制作的信息。还可以使用Word软件提供的绘图工具制作图形,编辑艺术化的文字和数学公式,可以满足用户的各种文档处理需求。

(4)强大的制表功能Word软件提供了强大的制表功能,不仅可以自动制表,还可以手动制表。Word表格行自动保护,表格中的数据可以自动计算,表格也可以用各种方式修饰。在Word软件中,也可以直接插入电子表格。用Word软件做表格简单美观,快捷方便。

(5)自动功能词软件提供拼写和语法检查功能,提高了英文文章编辑的准确性。如果发现语法错误或拼写错误,Word软件还会提供修改建议。用Word软件编辑一篇文档后,Word可以帮助用户自动撰写摘要,节省用户大量时间。自动更正功能为用户输入相同的字符提供了很好的帮助。用户可以自己定义字符的输入。当用户想要输入相同的字符时,可以改为定义一个字母,尤其是在输入汉字时。这个功能大大提高了用户的输入速度。

(6)模板和向导功能Word软件提供了大量丰富的模板,使用户在编辑某一类文档时能够快速建立相应的格式。而且Word软件允许用户自定义模板,为用户建立有特殊需求的文档提供了一种高效快捷的方法。

(7)丰富的帮助功能Word软件的帮助功能详细而丰富,Word软件提供的形象、便捷的帮助使用户在遇到问题时能够找到解决方案。为用户自学提供了方便。

(8)支持互联网的网络工具是当今计算机最广泛使用和最流行的方面之一。Word软件提供网络支持。用户可以根据网页向导快速方便地制作网页(通常称为网页),也可以使用Word软件的Web工具栏快速打开、查找或浏览包括网页和Web文档在内的各种文档。

(9)超强兼容性Word软件可以支持多种文档,还可以将Word编辑的文档保存为其他格式,为Word软件与其他软件的信息交换提供了极大的便利。你可以编辑电子邮件、信封、备忘录、报告、网页等。用词。

(10)强大的打印功能Word软件提供打印预览功能,对打印机参数有很强的支持和配置。