网站上的历史数据可以通过爬虫获取吗？

首先，了解网络爬虫的基本工作流程:

1.先选择一些精挑细选的种子URL；

2.将这些URL放入要爬网的URL队列中；

3.从待爬取的URL队列中取出待爬取的URL，解析DNS，获取主机的ip，下载该URL对应的网页并存储在下载的网页库中。此外，将这些URL放入已爬网的URL队列中。

4.分析已爬取的URL队列中的URL，分析其他URL，将URL放入待爬取的URL队列中，从而进入下一个循环。

可见你想要的数据应该是通过URL来传输的。如果网址无效，你几乎无法通过正常手段获取数据。所以基本上只要是人们看不到的东西，都可以默认为不可用。