搜索引擎技术的发展历史

从搜索引擎采用的技术来看,搜索引擎技术的发展可以分为分类目录、文本检索、链接分析和用户中心四个时代。

这个时代也可以称为“导航时代”,雅虎和hao123就是这个时代的代表。通过人工收集整理,将各类优质网站或网页分门别类列出,用户可以根据分类目录找到优质网站。这种方法纯属人为,没有采用任何先进的技术手段。

一般采用分类目录的收录网站质量较高,但这种方式不具备可扩展性,大部分网站无法收录。

文本检索的生成使用经典的信息检索模型,如布尔模型、向量空间模型或概率模型,计算用户查询关键词与网页文本内容的相关度。网页之间有丰富的链接,但这一代搜索引擎并不使用这些信息。很多早期的搜索引擎,如Alta Vista、Excite等,大多采用这种模式。

与分类目录相比,该方法可以包含大部分网页,并根据网页内容与用户查询的匹配程度进行排序。但总体来说,搜索结果的质量不是很好。

这一代搜索引擎充分利用网页之间的链接关系,深度挖掘和利用网页链接所代表的意义。一般来说,网页链接代表了一种推荐关系,通过链接分析可以从海量内容中找出重要的网页。这个重要性本质上是衡量网页受欢迎程度的指标,因为被多次推荐的网页实际上代表了其受欢迎程度。搜索引擎通过结合网页的流行度和内容的相似性来提高搜索质量。

Google首先提出并使用了PageRank链接分析技术,获得了巨大的成功,也引起了学术界和其他商业搜索引擎的关注。后来学术界推出了很多改进的链接分析算法。目前,几乎所有的商业搜索引擎都采用了链接分析技术。

利用链接分析可以有效提高搜索质量,但是这种搜索引擎并没有考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会得到相同的搜索结果。此外,为了获得更高的搜索排名,许多网站所有者提出了许多链接分析算法的链接作弊方案,导致搜索结果不佳。

目前大部分搜索引擎都可以归为第三代,即以理解用户需求为核心。即使不同的用户输入相同的查询关键字,他们的目的也可能不同。比如你也输入“苹果”作为查询词,一个追求iPhone的时尚青年和一个果农的目的会有相当大的差距。即使同一个用户输入同一个查询词,需求也会因为时间和场合的不同而发生变化。目前大多数搜索引擎都致力于解决以下问题:如何理解用户发来的一个简短的查询词背后的真实需求,所以这一代搜索引擎被称为以用户为中心的一代。

为了获取用户的真实需求,目前大多数搜索引擎都做了很多技术上的尝试。比如利用用户发送查询词时的时间和地理位置信息,利用用户过去发送的查询词,对应的点击记录,历史信息等技术手段,试图了解用户此时此刻的真实需求。