最早的搜索问答平台是什么?

互联网发展初期,网站相对较少,查找信息比较容易。然而,随着互联网的爆炸式发展,普通网络用户要找到自己需要的信息就像大海捞针。这时,满足公众信息检索需求的专业搜索网站应运而生。

现代意义上的搜索引擎的鼻祖是蒙特利尔大学的学生艾伦·艾姆塔奇(Alan Emtage)在1990年发明的阿奇(Archie)。虽然当时万维网还没有出现,但是网络中的文件传输相当频繁,而且由于大量文件分散在各种零散的FTP主机中,查询起来非常不方便,于是艾伦·艾姆塔奇想到开发一个可以通过文件名查找文件的系统,于是阿奇应运而生。

阿奇的工作原理和现在的搜索引擎非常接近。它依靠脚本程序自动搜索在线文件,然后索引相关信息,供用户用一定的表达式进行查询。受Archie受用户欢迎的启发,美国内华达州的系统计算服务大学在1993开发了另一个非常相似的搜索工具,但此时的搜索工具除了索引文件外,还可以检索网页。

当时“机器人”这个词在程序员中非常流行。电脑机器人是指能够以人类无法达到的速度不间断地执行某项任务的软件程序。因为专门用来检索信息的“机器人”程序像蜘蛛一样在网络上爬行,所以搜索引擎的“机器人”程序被称为“蜘蛛”程序。

世界上第一个监测互联网发展规模的“机器人”程序是马修·格雷开发的万维网漫游者。一开始只是用来统计互联网上的服务器数量,后来发展到可以检索网站域名。

对应漫游者,马丁·科斯特在1993年6月创办了ALIWEB,也就是阿奇的HTTP版。ALIWEB不使用“机器人”程序,而是通过主动提交网站的信息来建立自己的链接索引,类似于我们现在所熟悉的雅虎。

随着互联网的快速发展,检索所有新的网页变得越来越困难。因此,基于马修·格雷的《漫游者》,一些程序员改进了传统“蜘蛛”程序的工作原理。这个想法是,由于所有的网页可能有链接到其他网站,这是有可能的搜索整个互联网通过以下一个网站的链接。到1993年底,一些基于这一原理的搜索引擎开始陆续出现,其中以JumpStation、万维网蠕虫(Goto的前身,今天的Overture)和基于知识库的软件工程(RBSE)蜘蛛最为著名。

而JumpStation和WWW Worm只是按照搜索工具在数据库中找到匹配信息的顺序对搜索结果进行排序,没有信息关联。RBSE是第一个将关键词串匹配度的概念引入搜索结果排名的引擎。

最早的现代搜索引擎出现在1994年7月。当时,迈克尔·毛尔丁(Michael Mauldin)将约翰·莱维特(John Leavitt)的蜘蛛程序连接到其索引程序,并创建了Lycos,这种程序现在已广为人知。同年4月,斯坦福大学的两名博士生大卫·费罗(David Filo)和美籍华人格里·杨(Gerry Yang)共同创办了超级目录索引雅虎(Yahoo),成功地让搜索引擎的概念深入人心。自此,搜索引擎进入了高速发展期。目前,互联网上有数百个知名的搜索引擎,它们检索的信息量与以前不可同日而语。比如最近风头正劲的Google,它的数据库里存储了30亿个页面!

随着互联网的快速扩张,一个搜索引擎已经无法独自适应当前的市场形势,所以现在搜索引擎之间有分工合作,有专业的搜索引擎技术和搜索数据库服务商。像国外的Inktomi(被雅虎收购),并不是直接面向用户的搜索引擎,而是向包括Overture(原GoTo,被雅虎收购)、LookSmart、MSN、HotBot等其他搜索引擎提供全文网页搜索服务。中国的百度也属于这一类(注1),搜狐和新浪用的都是它的技术(注2)。所以,从这个意义上来说,他们是搜索引擎的搜索引擎。