如何用python网络爬虫获取okcoin的历史数据?

首先,获取整个页面的数据

首先我们可以得到要下载图片的整页信息。

getjpg.py

#编码=utf-8

导入urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

返回html

打印html

Urllib模块提供了一个从网页读取数据的接口。我们可以从www和ftp上读取数据,就像读取本地文件一样。首先,我们定义一个getHtml()函数:

网址。URL()方法用于打开一个URL地址。

read()方法用于读取URL上的数据,将URL传递给getHtml()函数,并下载整个页面。执行程序将打印出整个网页。

其次,过滤页面中所需的数据

Python提供了非常强大的正则表达式,我们需要先了解一点Python正则表达式。

如果我们在百度贴吧里发现了一些很漂亮的壁纸,可以查看一下上一段的工具。找到了图片的地址,比如:src = "/70 cfying qfm 2 e 88 ium _ a/forum...jpg" pic _ ext = "JPEG "

按如下方式修改代码:

进口re

导入urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

返回html

def getImg(html):

reg = r'src= "(。+?\.jpg)" pic_ext '

imgre =重新编译(reg)

imglist = re.findall(imgre,html)

返回imglist

打印getImg(html)

我们还创建了getImg()函数,用于过滤整个页面中所需的图片连接。Re模块主要包含正则表达式:

Re.pile()可以将正则表达式编译成正则表达式对象。

re.findall()方法读取html中包含imgre(正则表达式)的数据。

运行该脚本将获得包含在整个页面中的图片的URL地址。

第三,将页面过滤后的数据保存到本地

通过for循环遍历过滤后的图像地址,并将其保存在本地。代码如下:

#编码=utf-8

导入urllib

进口re

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

返回html

def getImg(html):

reg = r'src= "(。+?\.jpg)" pic_ext '

imgre =重新编译(reg)

imglist = re.findall(imgre,html)

x = 0

对于imglist中的imgurl:

urllib.urlretrieve(imgurl,' %s.jpg' % x ')

x+=1

打印getImg(html)

这里的核心是使用urllib.urlretrieve()方法将远程数据直接下载到本地。

通过for循环遍历获得的图像连接。为了让图像的文件名看起来更规范,对其进行了重命名,命名规则是在X变量上加1。保存位置默认为程序的存储目录。

程序运行后,你会在目录中看到下载的文件。转载仅供参考。