如何用python网络爬虫获取okcoin的历史数据?
首先我们可以得到要下载图片的整页信息。
getjpg.py
#编码=utf-8
导入urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
返回html
打印html
Urllib模块提供了一个从网页读取数据的接口。我们可以从www和ftp上读取数据,就像读取本地文件一样。首先,我们定义一个getHtml()函数:
网址。URL()方法用于打开一个URL地址。
read()方法用于读取URL上的数据,将URL传递给getHtml()函数,并下载整个页面。执行程序将打印出整个网页。
其次,过滤页面中所需的数据
Python提供了非常强大的正则表达式,我们需要先了解一点Python正则表达式。
如果我们在百度贴吧里发现了一些很漂亮的壁纸,可以查看一下上一段的工具。找到了图片的地址,比如:src = "/70 cfying qfm 2 e 88 ium _ a/forum...jpg" pic _ ext = "JPEG "
按如下方式修改代码:
进口re
导入urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
返回html
def getImg(html):
reg = r'src= "(。+?\.jpg)" pic_ext '
imgre =重新编译(reg)
imglist = re.findall(imgre,html)
返回imglist
打印getImg(html)
我们还创建了getImg()函数,用于过滤整个页面中所需的图片连接。Re模块主要包含正则表达式:
Re.pile()可以将正则表达式编译成正则表达式对象。
re.findall()方法读取html中包含imgre(正则表达式)的数据。
运行该脚本将获得包含在整个页面中的图片的URL地址。
第三,将页面过滤后的数据保存到本地
通过for循环遍历过滤后的图像地址,并将其保存在本地。代码如下:
#编码=utf-8
导入urllib
进口re
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
返回html
def getImg(html):
reg = r'src= "(。+?\.jpg)" pic_ext '
imgre =重新编译(reg)
imglist = re.findall(imgre,html)
x = 0
对于imglist中的imgurl:
urllib.urlretrieve(imgurl,' %s.jpg' % x ')
x+=1
打印getImg(html)
这里的核心是使用urllib.urlretrieve()方法将远程数据直接下载到本地。
通过for循环遍历获得的图像连接。为了让图像的文件名看起来更规范,对其进行了重命名,命名规则是在X变量上加1。保存位置默认为程序的存储目录。
程序运行后,你会在目录中看到下载的文件。转载仅供参考。