如何解决Python读取PDF内容速度慢的问题？

1，简介

晚上翻看《Python网络资料集》这本书，看到了读取pdf内容的代码，想起前几天soking刚刚发布了一个抓取网页pdf内容的抓取规则，可以把PDF内容当做html来抓取网页。神奇之处在于Firefox解析pdf的能力，可以将PDF格式转换成html标签，比如div标签，这样GooSeeker网页抓取软件就可以像抓取普通网页一样抓取结构化内容。

这就提出了一个问题:Python爬虫可以用到什么程度？下面将描述一个实验过程和源代码。

2.将pdf转换成文本的Python源代码。

以下python源代码，读取pdf文件内容(互联网或本地)，转换成文本并打印出来。这段代码主要使用第三方库PDFMiner3K将PDF作为字符串读取，然后使用StringIO将其转换为file对象。(源代码下载地址见文末GitHub源码。)

从urllib.request导入urlopenfrom pdfminer.pdfinterp导入PDFResourceManager，process _ pdf from pdf miner . converter导入text converter from pdf miner . layout导入LAParamsfrom io导入StringIOfrom io导入opendef readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr，retstr，laparams=laparams)

process_pdf(rsrcmgr，设备，pdf文件)

device.close()

content = retstr.getvalue()

retstr.close()返回内容

pdfFile = urlopen("/pages/warand peace/chapter 1 . pdf ")

output string = read pdf(pdf file)print(output string)

pdfFile.close()

如果PDF文件在您的计算机中，请用普通的open () file对象替换urlopen返回的PDF文件。

3.观点

这个实验只是把pdf转换成文本，而不是像开头说的那样转换成html标签，所以在Python编程环境中是否有这个能力还有待以后的探索。

4、set soking GooSeeker开源代码下载源码。

1.？GooSeeker开源Python网络爬虫GitHub源码

5.文档修改历史

2016-05-26: V2.0，附补充文字说明。

2016-05-29: V2.1，增加第六章:源代码下载源码，更改github源码的网址。