如何用python网络爬虫获取okcoin的历史数据？

首先，获取整个页面的数据

首先我们可以得到要下载图片的整页信息。

getjpg.py

#编码=utf-8

导入urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

返回html

打印html

Urllib模块提供了一个从网页读取数据的接口。我们可以从www和ftp上读取数据，就像读取本地文件一样。首先，我们定义一个getHtml()函数:

网址。URL()方法用于打开一个URL地址。

read()方法用于读取URL上的数据，将URL传递给getHtml()函数，并下载整个页面。执行程序将打印出整个网页。

其次，过滤页面中所需的数据

Python提供了非常强大的正则表达式，我们需要先了解一点Python正则表达式。

如果我们在百度贴吧里发现了一些很漂亮的壁纸，可以查看一下上一段的工具。找到了图片的地址，比如:src = "/70 cfying qfm 2 e 88 ium _ a/forum...jpg" pic _ ext = "JPEG "

按如下方式修改代码:

进口re

导入urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

返回html

def getImg(html):

reg = r'src= "(。+?\.jpg)" pic_ext '

imgre =重新编译(reg)

imglist = re.findall(imgre，html)

返回imglist

打印getImg(html)

我们还创建了getImg()函数，用于过滤整个页面中所需的图片连接。Re模块主要包含正则表达式:

Re.pile()可以将正则表达式编译成正则表达式对象。

re.findall()方法读取html中包含imgre(正则表达式)的数据。

运行该脚本将获得包含在整个页面中的图片的URL地址。

第三，将页面过滤后的数据保存到本地

通过for循环遍历过滤后的图像地址，并将其保存在本地。代码如下:

#编码=utf-8

导入urllib

进口re

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

返回html

def getImg(html):

reg = r'src= "(。+?\.jpg)" pic_ext '

imgre =重新编译(reg)

imglist = re.findall(imgre，html)

x = 0

对于imglist中的imgurl:

urllib.urlretrieve(imgurl，' %s.jpg' % x ')

x+=1

打印getImg(html)

这里的核心是使用urllib.urlretrieve()方法将远程数据直接下载到本地。

通过for循环遍历获得的图像连接。为了让图像的文件名看起来更规范，对其进行了重命名，命名规则是在X变量上加1。保存位置默认为程序的存储目录。

程序运行后，你会在目录中看到下载的文件。转载仅供参考。