搜索引擎的工作原理和发展历史是怎样的?

搜索引擎是指按照一定的策略并使用特定的计算机程序从互联网上收集信息,对信息进行组织和处理,为用户提供检索服务,并显示与用户检索相关的信息的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合搜索引擎、门户搜索引擎和免费链接列表。

第一代:分类目录时代(人工时代)

我不知道你什么时候在你的搜索引擎里设置了一个导航网站作为你的主页。其实这个网站就是第一代搜索引擎的代表。从这个导航网站我们可以看到,几乎所有的都是分类网站,几乎在互联网上,所有的在这个网站都有。从这里可以看出,这个网站是一个导航网站,或者说是一个分类目录网站,用户可以从中找到自己想要的东西,这就是第一代搜索引擎。

第二代:文本检索时代(海量自动获取和排序列表)

在这一代中,搜索引擎通过用户输入的查询信息提交给服务器来查询信息,服务器通过咨询向用户返回一些高度相关的信息。这一代搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或向量空间模型。这些模型用于计算用户输入的查询信息是否与网页内容相关,相关度高的返回给用户。采用这种模式的搜索引擎主要是一些早期的搜索引擎,比如Alta Vista、Excite等。这是第二代搜索引擎。

第三代:集成分析时代(三维搜索和结果集成)

这一代搜索引擎使用的方法和我们今天网站的外部链接基本相同。在当时,外部链接代表了推荐的意义,一个网站的知名度和重要性是通过每个网站的推荐链接数量来判断的。然后搜索引擎结合网页内容的重要性和相似性来提高用户搜索的信息质量。这种模式的第一个用户是谷歌,不仅是第一次使用,而且非常成功。这一成果在当时引起了学术界和其他商业搜索引擎的极大关注。后来,基于这一成果,学术界提出了更多改进的链接分析算法。大多数主流搜索引擎都在使用分析链接技术算法。这是第三代搜索引擎。

智能地将用户输入关键词和反馈的海量信息整合到一个门户式的界面中,让用户感觉每一个关键词都是一个完整的信息世界。而不是像二代那样返回一个列表,整个列表混杂了大量用户不关心、不分类的链接。第三代搜索引擎的典型特征是将第二代返回的信息智能整合到一个三维界面中。用户可以轻松进入最相关的分类区域一目了然地获取信息。

第四代:以用户为中心的时代(以移动互联网为标志的个人需求精准搜索)

第四代,也就是我们使用的搜索引擎技术,也是互联网上最常用的。主要以用户为中心。当客户输入查询请求时,同一查询的请求关键字可能是用户背后不同的查询需求。比如用户输入“苹果”,那么作为一个想买iPhone的用户和一个果农,要求就很不一样。即使是同一个用户,同一个关键词,也会因为时间地点的不同而返回不同的结果。各大搜索引擎都致力于解决同一个问题:如何从用户输入的一个简短的关键词中判断出用户真正的查询请求。这一代搜索引擎主要是以用户为中心的。这是第四代搜索引擎。