我们如何查询网站收藏?
前段时间百度在站长平台上发布了网站的精准采集数据,而且精确到每天,也就是每天更新,这样我们只要注册站长平台或者百度统计,就可以准确的知道网站的采集数据,每天都有数据,非常方便。为了方便我们观看,我们也采用倒序排列。百度官方曾表示,这个数据是当今收集的最准确的数据。
2.使用sitemap查询网站收集的数据。
现在除了在谷歌管理员工具中提交sitemap文件,还可以在百度站长平台中提交地图文件。格式可以是txt格式、xml格式和sitemap索引文件格式。提交后,抓取效果非常明显。因为百度还没有完全开放,提交sitemap文件需要邀请码。下面我们主要以Google为例来说明。地图文件可以在技术帮助下解决。其实最简单的格式可以是txt。在txt文件中,你只需要在每一行列出网址。中间不能有空行,但也要用绝对地址形式。但是最常用的格式是XML,因为它提供了URL、优先级、更新频率、时间等因素,更方便搜索引擎抓取。当我们制作并提交它时,它会像这样显示在Google管理员工具中:
其中,图中被索引的网站数量是Google抓取这个地图文件后收集的准确数据。如果我们把网站中的网址全部放到地图中,提交后通过这个方法就可以知道它的准确收藏。注意,当URL较多时,我们可以提交更多的sitemap文件,一个sitemap文件中的URL数量不能超过50000个,压缩前文件不能超过50M(百度不能超过10M)。
3.使用排名跟踪工具查询包含。
Rank tracker是国外查询关键词排名的优秀工具。它可以批量找出几万字的排名,非常厉害。我们可以通过导出网站的url,导入rank tracker进行批量查询,将URL作为网站的关键字进行排名查询,来使用它查询网站的集合。第一名包括在内。
4、使用机车收集工具进行检查和收集。
首先要导出网站的URL,然后根据百度的URL特征,将网站的页面URL作为百度搜索的关键词,批量生成百度查询后的URL地址。这些URL的内容要用机车工具批量采集,采集这些页面的特征内容,比如没有找到,对不起等字样。当这些内容被收集时,就意味着没有被收录。减去网址总数就是网站的收录数据。