网站上的历史数据可以通过爬虫获取吗?

首先,了解网络爬虫的基本工作流程:

1.先选择一些精挑细选的种子URL;

2.将这些URL放入要爬网的URL队列中;

3.从待爬取的URL队列中取出待爬取的URL,解析DNS,获取主机的ip,下载该URL对应的网页并存储在下载的网页库中。此外,将这些URL放入已爬网的URL队列中。

4.分析已爬取的URL队列中的URL,分析其他URL,将URL放入待爬取的URL队列中,从而进入下一个循环。

可见你想要的数据应该是通过URL来传输的。如果网址无效,你几乎无法通过正常手段获取数据。所以基本上只要是人们看不到的东西,都可以默认为不可用。