问答搜索系统的发展历史是怎样的?
所有搜索引擎的始祖是蒙特利尔麦吉尔大学的三个学生(艾伦·恩塔奇、彼得·多伊奇和比尔·惠兰)在1990年发明的阿奇·常见问题(Archie FAQ)。Alan Emtage等人想到开发一个可以通过文件名查找文件的系统,于是Archie应运而生。Archie是第一个在互联网上自动索引匿名FTP网站文件的程序,但它不是一个真正的搜索引擎。Archie是一个可搜索的FTP文件名列表。用户必须输入准确的文件名搜索,然后Archie会告诉用户哪个FTP地址可以下载文件。受Archie受欢迎程度的启发,内华达系统计算服务大学在1993开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来的另一个地鼠搜索工具。
在这一段编辑搜索引擎的发展:
发展(1):
世界上第一个蜘蛛程序,麻省理工学院马修·格雷分校的万维网漫游者,被用来跟踪互联网发展的规模。起初,它只是用来统计互联网上的服务器数量。后来,它被开发用来捕捉网址。搜索引擎一般由以下三部分组成:爬虫(机器人、蜘蛛)索引生成器、查询检索器。
发展(2):
Excite的历史可以追溯到2月1993。六个斯坦福大学学生的想法是分析单词之间的关系,以便更有效地搜索互联网上的大量信息。到1993中期,这个项目已经全部投入,他们还发布了一个版本的搜索软件,供站长们在自己的网站上使用,这个软件后来被称为Excite for Web Servers。注:Excite后来因为概念搜索而出名。2002年5月,被Infospace收购的Excite停止了自己的搜索引擎,转而使用元搜索引擎Dogpile。
发展(3):
1994年4月,两位斯坦福大学的博士生,美籍华人杨致远和大卫·费罗共同创立了雅虎!。随着访问量和链接数的增加,雅虎目录开始支持简单的数据库搜索。因为雅虎!的数据是人工输入的,所以不能真正归类为搜索引擎。事实上,它只是一个可搜索的目录。雅虎!由于网站收录的网站都附有简要信息,搜索效率明显提高。注:继雅虎之后,Altavista、Inktomi、Google将陆续提供搜索引擎服务。雅虎!——几乎成了90年代互联网的代名词。
发展(4):
1995年,出现了一种新的搜索引擎形式——元搜索引擎。用户只需提交一次搜索请求,元搜索引擎负责转换处理后提交给多个预选的独立搜索引擎,独立搜索引擎返回的所有查询结果都经过收集处理后返回给用户。第一个元搜索引擎是华盛顿大学的硕士生埃里克·塞尔伯格和柳文欢·埃齐奥尼的Metacrawler。元搜索引擎在概念上很好看,但是搜索效果总是不尽如人意,所以从来没有元搜索引擎有过强势地位。
发展(5):
智能检索的出现:利用分词词典、同义词词典、同音字词典提高检索效果,可以进一步辅助知识层面或概念层面的查询。通过对主题词典、上级词典和同级相关词典的检索处理,形成知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳检索效果。例:(1)查询“计算机”,也可以检索到与“计算机”相关的信息;(2)查询范围可进一步缩小到“微型计算机”、“服务器”或扩大到“信息技术”或相关的“电子技术”、“软件”、“计算机应用”;(3)还包括歧义信息和检索处理,如“苹果”是指水果还是电脑品牌,“中国人”和“中华人民共和国(PRC)”的区分将结合歧义知识描述库、全文索引、用户检索上下文分析和用户相关反馈等技术进行处理,从而高效、准确地向用户反馈最需要的信息。
发展(6):
个性化趋势是搜索引擎未来发展的重要特征和必然趋势之一。一种方式是通过搜索引擎的社区产品(即向注册用户提供服务)组织个人信息,然后将个人因素引入到搜索引擎的基础信息库检索中进行分析,从而获得针对个人的不同搜索结果。从2004年6月5438+10月雅虎推出myweb测试版,到2005年6月5438+065438+10月a9推出个性化功能,Googlesearchhistory基本遵循了同样的路径,分析特定用户搜索需求的有限范围,然后扩展到互联网上的其他类似网站,根据用户需求的范围给出最相关的结果。另一个是针对流行的,谷歌个性化搜索引擎,或yahooMindSet,或vivisimo,我们都知道这是前景聚类。但无论是哪种实现方式,即Google主动选择搜索范围还是yahoo,vivisimo在结果中对他们需要的信息进行重组,都是一种实验或者一种想法,短时间内不会成为主流的搜索引擎应用产品。
发展(7):
大全球网格技术:由于没有统一的信息组织标准对网络信息资源进行处理,无序的网络信息资源难以搜索、移交、共享甚至深度开发利用,形成信息孤岛。网格技术是为了消除信息孤岛,实现互联网上所有资源的全面连接。美国全球信息网格中的“机器人”一词对于程序员来说有着特殊的意义。电脑机器人是指能以人类达不到的速度重复执行一项任务的自动化程序。因为专门用来检索信息的机器人程序像蜘蛛一样在网络上爬行,所以搜索引擎的机器人程序被称为蜘蛛程序。马修·格雷在1993年开发了万维网漫游者,这是第一个利用HTML页面之间的链接关系来探测万维网规模的“机器人”程序。起初,它只是用来统计互联网上的服务器数量,后来它也能够捕捉网址(URL)。1994年4月,斯坦福大学的两位博士生,美籍华人杨致远和大卫·费罗共同创立了雅虎。随着访问量和链接数的增加,雅虎目录开始支持简单的数据库搜索。因为雅虎!的数据是人工输入的,所以不能真正归类为搜索引擎。事实上,它只是一个可搜索的目录。雅虎于2002年2月23日收购inktomi,2003年7月23日收购包括Fast和Altavista在内的Overture,2003年6月23日雅虎全资收购3721公司。1994年初,华盛顿大学的学生布莱恩·平克顿(Brian Pinkerton)开始了他的小项目网络爬虫(WebCrawler)。1994年4月20日,WebCrawler只包含来自6000台服务器的内容。WebCrawler是互联网上第一个支持搜索文档所有单词的全文搜索引擎。在它之前,用户只能通过URL和摘要进行搜索,这些通常来自人工注释或自动提取文本前100个单词的程序。1994年7月,卡内基梅隆大学的Michael Mauldin将John Leavitt的spider程序连接到其索引程序,并创建了Lycos。除了相关性排名,Lycos还提供前缀匹配和字符相似性限制。Lycos率先在搜索结果中使用网页自动摘要,其最大的优势是远远超过其他搜索引擎的数据量。1994结尾,Infoseek正式出现。其友好的界面和大量的附加功能使其成为Lycos等搜索引擎的重要代表。1995年,出现了一种新形式的搜索引擎——元搜索引擎综述。用户只需要提交一次搜索请求,由元搜索引擎负责转换处理,提交给预先选择的多个独立搜索引擎,各个独立搜索引擎返回的查询结果全部收集处理后再返回给用户。第一个元搜索引擎是华盛顿大学的硕士生埃里克·塞尔伯格和柳文欢·埃齐奥尼的Metacrawler。1995 65438+2月,DEC正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法(如AND、OR、NOT等)的搜索引擎。).用户可以使用AltaVista搜索新闻组并从互联网上获取文章,他们还可以在图片名称、标题、Java小程序和ActiveX对象中搜索单词。AltaVista还声称是第一个支持用户向web索引数据库提交或删除URL的搜索引擎,并且它可以在24小时内启动。AltaVista最有趣的新功能之一是搜索所有带有URL链接的网站。在面向用户的界面上,AltaVista也做了很多创新。它将“提示”放在搜索框区域,帮助用户更好地表达他们的搜索风格。这些提示经常更新,以至于用户搜索几次后,会看到很多自己可能永远不知道的有趣功能。这一系列功能逐渐被其他搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到自己想要的东西。1995年9月26日,加州大学伯克利分校助理教授埃里克·布鲁尔(Eric Brewer)和博士生保罗·高蒂尔(Paul Gauthier)创办了Inktomi。1996年5月20日,Inktomi公司成立,一个强大的HotBot出现在世人面前。它声称每天可以抓取超过65438+1亿页的索引,因此有远超其他搜索引擎的新内容。HotBot还使用cookie来存储用户的个人搜索偏好。1997年8月,北极光搜索引擎正式出现。它曾经是数据库最大的搜索引擎之一。它没有停止字。它有极好的时事新闻,一个由超过7100个出版物组成的特殊收藏,以及一个很好的高级搜索语法。它是第一个支持简单的搜索结果自动分类。1998 10之前,Google只是斯坦福大学的一个小项目,BackRub。1995年,博士生拉里·佩奇开始研究搜索引擎设计,并于9月15日注册了域名,1997。1997年底,在谢尔盖·布林、斯科特·哈桑、艾伦·斯特伦伯格的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的转型。谷歌把1998年9月27日当做自己的生日。Google在Pagerank的基础上判断网页的重要性,大大增强了搜索结果的相关性。谷歌的极客文化和不作恶为谷歌赢得了很高的声誉和品牌口碑。2006年4月,谷歌公布了自己的中文名字“Google”,这是谷歌在非英语国家给出的第一个名字。Fast(Alltheweb)公司成立于1997,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast的目标是做全球最大最快的搜索引擎,这几年已经接近了。Fast(Alltheweb)可以按ODP自动分类网页,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图片搜索、视频、MP3和FTP搜索,具有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。1996年8月,搜狐公司成立,做中文网站分类目录,一度有“出门找地图,上网找搜狐”的美誉。随着互联网网站的迅速增加,这种人工编辑的分类目录已经不再适用。2004年8月,搜狐成为独立域名搜索网站“搜狗”,自称“第三代搜索引擎”。Openfind成立于1998 65438+10月,其技术源于台湾中正大学吴生教授领导的GAIS实验室。起初,Openfind只是一个中文搜索引擎。在巅峰时期,它为三个著名的门户网站提供中文搜索引擎:新浪、奇摩和雅虎。但2000年后,市场逐渐被百度和谷歌瓜分。2002年6月,Openfind基于GAIS30项目重新发布了Openfind搜索引擎的测试版,推出了PolyRankTM,并宣布已经积累了35亿网页,开始进军英文搜索领域。5438年6月+2000年10月,两位北大校友,超链接分析的专利发明人、Infoseek前高级工程师李彦宏和他的朋友徐勇(加州伯克利博士后)在北京中关村创立了百度公司。百度搜索引擎测试版于2001年8月发布(百度只为搜狐、新浪、Tom等其他门户网站提供搜索引擎),百度搜索引擎于2001年10月22日正式发布,专注中文搜索。百度搜索引擎的其他功能还包括:百度快照、网页预览/所有网页预览、相关搜索词、错别字纠正提示、mp3搜索和Flash搜索。2002年3月Blitzen项目启动后,技术升级明显加快。后来又推出了贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网友好评。2005年8月5日,在纳斯达克上市,发行价27.00美元,代码BIDU。开盘价66.00美元,收于122.54美元,涨幅353.85%,创下近5年来美股上市新股的最高涨幅纪录。2003年2月23日,65438,原慧聪搜索正式独立运营,中国搜索成立。2004年2月,中国发布了桌面搜索引擎互联网猪1.0。2006年3月,中搜更名为互联网猪ig(互联网网关)。2005年6月,新浪正式推出自主研发的搜索引擎“爱文”。从2007年开始,新浪爱用谷歌搜索引擎。2007年7月1,网易自主研发有道搜索技术,将原来的综合搜索和网页搜索合并。有网页搜索、图片搜索、博客搜索为网易搜索提供服务。其中,网页搜索利用其自主研发的自然语言处理、分布式存储和计算技术;图片搜索是首个基于相机品牌、型号甚至季节的高级搜索功能;相比同类产品,博客搜索具有抓取全面、更新及时的优势,并提供“文章预览”、“博客文件”等创新功能。