中文输入法的发展

因为汉字有几万个,电脑键盘不可能给每个汉字都造一个键。因此,人们需要对汉字进行编码(检索汉字的代码),用几个键输入一个汉字。中文输入法的发展是一个“万码奔腾”的过程,30年间出现了上千种编码方式。

总的来说,最早的汉字输入法是随着70年代末或80年代初的个人电脑PC而产生的。虽然电报编码存在的比较早,每个汉字由0-9四位数字组成,方便邮局发电报,但总的来说,人们还是认为《信息交换用汉字编码字符集基本集》是国家标准局在1981出版的。台湾省汉字输入法的历史可以追溯到1976年,当时仓颉输入法是朱邦复发明的。

汉字输入法的发展,一方面是输入法软件功能的改进和完善,另一方面是新的输入法代码的不断出现。前者主要针对拼音输入法,后者存在“万码奔腾”的情况。早期的输入法软件大多是收费软件,很多企业或个人靠卖输入法软件赚钱。现在收费的输入法很少,大部分输入法软件都是免费产品。拼音输入法包括中国大陆的拼音输入法和台湾省的拼音输入法。拼音输入法相比其他输入法有着天然的优势,因为每一个受过教育的中国人,在学习汉字之前,都会花大量的时间学习汉语拼音或音标。拼音,原本是用来标记汉字发音的,可以很方便地作为汉字的输入码。拼音输入法的另一个优点是接近口语,所以拼音输入法可以在很短的时间内适应。

但是,拼音输入法有一个致命的弱点,就是用汉字输入法编码时,单字的重复率极高,甚至词组的重复率都很高。为了让拼音能够快速输入汉字,只有借助复杂的输入法软件,才能提高拼音的输入能力,比如支持智能排序、按词定义词、整句输入、云输入功能等。纵观拼音输入法的发展,也就是拼音输入法软件的发展。

拼音输入法最早出现在中文输入法诞生之初,但当时的拼音输入法软件功能较差,词序固定,不支持词组和整句输入,甚至连单词都不能和编码一起显示。在输入汉字的过程中,往往需要翻很多页才能找到需要的汉字,效率非常低。虽然当时很多人只用拼音输入法,但大多数人对拼音输入法的输入效率并不满意。

90年代后,拼音输入法软件开始支持短语输入和整句输入。1993出来的中文之星输入法软件,可以实时显示单字,即一边打拼音,一边显示汉字。中文之星软件有一些巧妙的设计,如空格确认、重码逗号和句号选择、模糊音容差和自定义字符串等。这些功能已经成为当今所有拼音输入法软件的必备功能。1993年初,北大朱寿涛先生发明了智能ABC输入法,被微软收购,内置到Windows系统中。在接下来的几年里,智能ABC输入法成为中国大陆最受欢迎的输入法软件。

1994的自动输入法软件和1996的黑马拼读输入法软件都实现了汉字整句输入(也叫句子输入)的能力。汉字的整句输入可以追溯到80年代末。哈工大博士生王小龙对汉语分词进行了研究,申请了863项目,撰写了“最小分词问题及其解决方法”的论文,从而为拼音的整句输入奠定了理论基础。从Windows 95中文版开始,微软内置了支持整句输入功能的“微软拼音输入法”。

但当时拼音输入法普遍不智能,整句输入不成熟,输入过程中错误率高。而且汉字无法与键入的拼音同步显示(微软拼音落后一个字,Autopass落后几个字,黑马拼音需要最后确认才出现汉字)。整句输入过程中修改拼音和选择汉字不方便,极大地制约了整句拼音输入法的使用,所以很多用户继续当智能ABC。直到1998年谭亚军发明的拼音星软件才全面支持“实时显示”模式。无论输入多少拼音,按下每个字母,同时显示汉字。用户会立即发现拼音有错误,而且由于支持自动分词和整句输入,用户不必担心是输入一个单词还是一个句子,系统可以处理。没有这个单词,系统也可以自动学习并保存它。1999出现了其他几种拼音输入法:拼音加、免费拼音输入法、考拉输入法。拼音加软件开始支持不用切换输入法直接用Enter键输入英文字母。

90年代,双拼输入法及相应的输入法软件也迅速发展起来。双拼输入法的方案有很多,比如自然码输入软件提供的自然码方案,以及声形编码与双拼和偏旁部首或笔画相结合,提供了一种快速输入汉字的方式,超出了拼音输入法的范畴。严格来说,自然码的双拼不是纯拼音,而是一种声形码。此外还有微软、拼音之星、拼音Gaga、小河双拼等。都提供自己不同的双拼方案。

进入新世纪后,拼音输入法软件功能趋于成熟,正式进入智能拼音输入法时代。此时的拼音输入法软件主要是集成了之前拼音输入法软件的优点,提供了更大的词汇量,软件更加智能,学习能力更强。

2000年初出来的智能拼读也提供了更智能的输入法。紫光拼音输入法是在考拉输入法的基础上开发的,提供了更大的词汇量,增加了智能构词,也就是说,用户可以连续输入9个字以内的拼音串,系统可以自动转换成汉字,不管有没有这个字,系统都会按照词频和高频预见的方式给出词串组合。紫罗兰输入法终于成为用户喜爱的输入法之一。

随着互联网的快速发展,2006年6月,搜狐推出了Windows平台下的搜狗拼音输入法。搜狗拼音输入法是基于搜索引擎技术的新一代拼音输入法产品。用户可以通过互联网备份他们的个性化词库和配置信息。搜狗拼音输入法很快取代智能ABC输入法,成为国内主流的汉字输入法。

搜狗输入法出来后,谷歌、腾讯、百度、微软也推出了同类型的智能拼音输入法:谷歌拼音输入法、QQ拼音输入法、百度输入法、必应输入法。

随着智能手机和平板电脑的普及,很多IT公司都开发了针对Android、iPhone、iPad的拼音输入法,如百度手机输入法、QQ手机输入法、搜狗手机输入法等。这些输入法延续了电脑输入法的特点,输入法软件根据触摸屏的特点提供了更加灵活的输入方式。

台湾省的拼音输入法主要是音标输入法。与中国大陆类似,输入法软件也在不断改进,变得更加智能。与中国大陆不同,中国大陆的拼音输入法一贯使用英文26键作为拼音输入法的键位,而台湾省使用的拼音输入法键位设置没有统一标准,从40键到30键再到26键。因为音标与键盘的英文字母不是一一对应的,所以在设置音标的时候,往往用数字键和符号键作为编码。

在香港,流行粤语拼音输入法(又称粤语输入法),利用汉字的粤语发音在电脑上输入汉字。由于粤语拼音缺乏统一的拼音标准方法,各种软件的拼音方法不一致,阻碍了粤语拼音输入法的进一步发展和普及。虽然拼音输入法简单易学,但是由于汉字同音字现象造成的重码率居高不下,即使输入的词组重码,即使增加了云输入功能,也无法准确输入字符。因此,在拼音编码之外出现了大量的编码方案,主要包括有形码和形声码。这些码往往比拼音输入法重码率低,熟练后可以快速输入汉字。最早在中国大陆出现并流行的形码输入法是王永民在1983年发明的五笔字型输入法。台湾省最早的形码输入法是朱邦复在1976年发明的仓颉输入法。

随着计算机在中国的普及,首先迫切需要解决的问题是如何将汉字输入计算机。虽然拼音可以作为汉字的编码,做成拼音输入法,但长期以来,拼音输入法输入汉字的效率极低。为了在电脑上快速进行中文输入,有人抛弃英文键盘布局,设计了专门的中文键盘。这些键盘中的一些具有几十甚至几百个键作为编码,但是这些方案没有实现简单或快速的中文输入。

直到1983年8月,王永民推出了划时代的五笔字型输入法。五笔输入法使用普通电脑键盘,只用25个英文字母键参与编码,不仅可以让我们输入汉字,还大大解决了输入速度的老大难问题。吴彼字体是典型的“形码”,它完全按照笔画和字形的特点对汉字进行编码。在吴彼字体的发展过程中,诞生了三种编码方案,即86版、98版和新世纪版。作为国内第一个普及的形码输入法,一经推出就受到了众多用户的热烈欢迎。上世纪八九十年代,很多人学电脑的第一个任务就是学习五笔字型输入法,五笔教学培训班也遍地开花。

80年代后期,又出现了另一种著名的形码输入法——郑码输入法。郑码是郑伊丽和他的女儿郑龙* * *发明的一种中文输入法。与相比,郑码输入法更规范、更广泛,因为微软把郑码输入法内置到了Windows 95系统中,成为了系统的默认输入法。直到2012的Windows 8才取消了内置的郑码输入法。马铮上市不久即获得中、美、英三国专利授权,并通过国家鉴定,获得北京国际发明金奖和最佳发明奖。荣获第22届日内瓦发明金奖。为了解决繁体字和简化字通用的问题,郑码采用部首双编码,减少部首重复,由于采用按特征查找部首和区号的方法,且多采用标准部首,因此更容易学习。

上世纪八九十年代,由于国家教委还没有推荐输入法方案,中小学教授的汉字输入法相当多,不同学校的汉字输入法也不一样,有的教字体,有的教自然码,有的教萧码。吴彼字体输入法虽然可以快速输入汉字,但已经在全国大范围推广。但吴彼一直无法成为国家教委推荐的输入法,原因是其学习难度较高,吴彼编码本身存在很多不合理的地方,比如字根不符合汉字的基本组成部分,违反了笔顺等。

进入90年代后,国家教委批准了“八五”重点输入法研究项目。8月1992日0至3时,国家教委基础教育司及其直属的国家中小学计算机教育研究中心在北京召开“中小学教学用汉字编码国家标准和计算机汉字输入系统”研讨会。最后,代表们认为,在当前的中小学计算机教学中,应主要采用汉语拼音方案作为计算机汉字输入方法,对形码的选择要特别慎重,以避免对语言文字的“污染”,坚决反对以商业竞争或行政命令等手段强制推行不规范的中小学汉字输入编码方案的做法。两年后,项目研究组推出了名为“认知码计算机汉字输入系统”的形码输入法。1995,国家教委推荐中小学使用认知码,全面推广到全国中小学。

然而,由于认知代码本身的诸多缺点,它在实施中遇到了很大的争议和阻力。很多学术期刊都发表过讨论认知码的文章,因为认知码的致命缺陷,如复制率高、编码规则复杂、学习性差、部首选择缺乏正确规范、简码使用不科学等,使得后来开发的官方码遭到了批评者的反驳。最终,认知码的全面推广也不了了之。

在国家教委努力研发一种规范、快捷、易学的输入法的同时,一种更好的输入法——二笔输入法在民间诞生了。二笔输入法是陈劲松在1992年发明的一种音码输入法,用拼音声母和笔画(两笔一键)的组合来取码。直到2000年6月成立的广东二笔软件有限公司对外推出二笔输入法软件,二笔输入法才正式出现在大众的视野中。二笔输入法不仅简单易学,而且可以和五笔一样的速度输入单词。二笔输入法规范、易学、快捷,因此通过了教育部基础教育课程发展中心的评估,获准进入中小学基础教材。这是2013年底唯一被批准进入中小学基础教材的汉字输入法。

因为广东碧儿软件有限公司高价出售碧儿输入法软件,而当时(2000年至2004年)广泛使用的智能ABC输入法和吴彼输入法都是免费产品,只有少数人愿意尝试使用碧儿。最终,主要经营碧儿输入法软件的广东碧儿软件有限公司在2004年濒临破产。另一方面,二笔输入法以其优秀的特性吸引了众多二笔爱好者,一些爱好者在维护二笔输入法软件的同时,对二笔输入法进行了进一步的改进和优化。大部分二笔输入法软件都可以在网上免费获取和使用。

随着智能拼音输入法时代的到来,尤其是2006年搜狗拼音输入法诞生后,非拼音型形码或音码输入法受到的关注越来越少,也没有国家相关部门参与输入法的研发和推广。但这并不影响众多输入法爱好者对输入法编码方案研究的热情。很多粉丝会从很多方面考虑输入法,比如复制率,易学性,支持大字体,输入法键的舒适度等等。

一些输入法爱好者还是希望得到一种超低重复率的输入法,于是他们制作了一种读码输入法,在GB2312-80字符集的6763个汉字中,只有14个重复字。在支持大字体方面,除了输入法编码本身,还需要输入法软件和字库或词库的支持,于是诞生了包含全部7万多个UNICODE汉字的海风吴彼软件。但在输入法编码方案的易学性方面,仍然没有一种编码方法可以超越二笔输入法,可以做到既高效又易学。

在台湾省,中文输入法也有很多编码方案。1976年,朱邦复发明了第一种形码输入法——仓颉输入法。输入法发明后,朱邦复将输入法免费公之于众,使计算机汉化有了很大进步。所以台湾省的Windows操作系统内置了仓颉输入法。也成为台湾省最受欢迎的形码输入法之一。成仓颉输入法问世后,诞生了一批形码输入法。比如王赞杰发明了大益输入法,廖明德发明了行输入法。和仓颉输入法一样,这些输入法都是其作者申请的专利,所以也被内置到Windows系统中。台湾省使用最广泛的形码输入法是虾米输入法,是台湾省人刘崇基在上世纪80年代末发明的。通常我们所指的输入法是指电脑或手机键盘上的输入法,包括拼音、形码、音码。除了这些常见的输入方式,还有语音输入、手写输入和快速录音技术。这些输入法的发展与普通键盘输入法的发展密切相关,而独立于普通键盘输入技术。

汉字语音输入是一种利用语音识别技术将语音转换成文字的输入方法。通常,马尔可夫信息模型用于统计处理,基于规则的方法用于歧义判别。90年代中后期,IBM终于推出了与说话人无关的连续语音识别系统ViaVoice,在当时的语音识别领域处于领先地位。与此同时,国内许多从事汉字语音识别研究的人,利用在研究所或大学所学的知识或研究成果,建立了庞大的汉语数据库(也称语料库),推出了普通话语音输入系统。科大讯飞已经成为中国最大的智能语言技术提供商。在个人电脑上实现中文的语音输入往往需要外部设备。现在随着智能手机的普及,很多智能手机输入法都有自己的语音输入功能,比如百度手机输入法,讯飞语音输入法,用户也可以方便的用手机进行语音输入文字。但是,语音输入不能提高非常准确的文本输入。

除了拼音输入,手写也是一种常用的汉字输入方法。手写输入法是一种直接在手写板或触屏手机屏幕上书写的中文输入法。从1997开始,出现了基本可用的手写汉字输入系统,采用了基于语义句法的模式识别方法。在20世纪90年代,许多手写产品诞生了,如中国的汉王99和摩托罗拉的毕慧。但是在随后的几年里,手写并没有得到广泛的应用,直到触屏手机的出现,尤其是智能手机和平板电脑普及之后,手写输入法才得到更广泛的应用。

严格来说,速录技术不属于输入法编码方式,速录使用的编码方式其实主要是拼音、形码、音码三种。速录一般面向特定领域,速录人员就业面向政府机关和司法系统。这些领域需要很高的书写速度,尤其是在会议中,速记员可以一边听一边打字,就像单词立即出现在他面前一样。另外,快录的键盘通常不同于普通键盘,采用了快录的键盘。例如,雅威速录就采用了速录的国际键盘。

速记记录是最早的中文速记记录技术,由唐于1993年以拼音输入的方式发明。雅威速记也是应用最广泛的中文速记记录技术。继雅威速录之后,又出现了许多其他的速录技术,如国速录、超音速速录、飞速速录、五笔双等。

虽然速录使用的编码方案通常是拼音方案(少数使用五笔或二笔),但经过特殊的编码组合后,大部分都使用了组合笔画技术,每次需要多个手指按下多个不同的键,可以有效提高击键效率,从而突破普通键盘每分钟200到300字的极限速度,达到每分钟600字以上的速度。