参考内容:Python3 网络爬虫开发实战-崔庆才
抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有多种多样,可以使用正则来提取,但是写起来相对较繁琐。这里还有许多强大的解析库,如 lxml,Beautiful Soup,pyquery 等。此外还提供了非常大的解析方法,如 XPath 解析和 CSS 选择器解析等,利用它们,我们可以高效便捷地从网页中提取有效信息。
lxml 的安装
lxml 是 Python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高。
- 官方网站:
https://lxml.de/
- GitHub:
https://github.com/lxml/lxml
- PyPI:
https://pypi.org/project/lxml/
pip 安装 lxml
无论是在 Windows,Linux 或 Mac 下都可以先使用 pip 进行安装,安装命令如下:
1 | pip install lxml |
如果没有任何报错,则证明安装成功。如果出现报错,比如缺少 libxml2 库等信息,可以采用 wheel 方式安装。
安装完成之后,可以在 Python 命令行下或输入如下命令测试:
1 | python -c "import lxml" |
如果无任何错误输出,则证明库已经安装好了。
Beautiful Soup 的安装
Beautiful Soup 是 Python 的一个 HTML 或 XML 的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的 API 和多样的解析方式。
- 官方文档:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 中文文档:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
- PyPI:
https://pypi.org/project/beautifulsoup4/
Beautiful Soup 的 HTML 和 XML 解析器是依赖于 lxml 库的,所以在此之前请确保已经成功安装好了 lxml 库。
pip 安装 beautifulsoup4
目前,Beautiful Soup 的最新版本是 4.x 版本,之前的版本已经停止开发了。这里推荐使用 pip 来安装,安装命令如下:
1 | pip install beautifulsoup4 |
命令执行完毕之后即可完成安装,安装完成之后,可以运行下面的代码验证一下:
1 | from bs4 import BeautifulSoup |
运行结果如下:
1 | Hello |
如果运行结果一致,则证明安装成功。
注意,这里我们虽然安装的是 beautifulsoup4 这个包,但是在引入的时候却是 bs4。这是因为这个包源代码本身的库文件夹名称就是 bs4,所以安装完成之后,这个库文件夹就被移入到本机 python3 的 lib 库里,所以识别到的库文件名就叫做 bs4.
因此,包本身的名称和我们使用时导入的包名称并不一定是一致的。
pyquery 的安装
pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析 HTML 文档,支持 CSS 选择器,使用非常方便。
- GitHub:
https://github.com/gawel/pyquery/
- PyPI:
https://pypi.org/project/pyquery/
- 官方文档:
https://pythonhosted.org/pyquery/index.html
pip 安装 pyquery
这里推荐使用 pip 安装,命令如下:
1 | pip install pyquery |
命令执行完毕之后即可安装完成。安装完成之后,可以在命令行下进行测试:
1 | python -c "import pyquery" |
如果没有错误报出,则证明库已经安装好了。
tesserocr 的安装
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。
OCR,即 Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,他们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
tesserocr 是 Python 的一个 OCR 识别库,但其实是对 tesseract 做的一层 Python API 封装,所以它的核心是 tesseract。因此在安装 tesserocr 之前,我们要先安装 tesseract。
- tesserocr Github:
https://github.com/sirfz/tesserocr
- tesserocr PyPI:
https://pypi.org/project/tesserocr/
- tesseract 下载地址:
https://digi.bib.uni-mannheim.de/tesseract/
- tesseract GitHub:
https://github.com/tesseract-ocr/tesseract
- tesseract 语言包:
https://github.com/tesseract-ocr/tessdata
- tesseract 文档:
https://github.com/tesseract-ocr/tessdoc/blob/master/Documentation.md
Windows 下的安装
在 Windows 下,首先需要下载 tesseract,它为 tesserocr 提供了支持。
进入下载页面,可以看到有各种 .exe 文件的下载列表,这里选择下载 3.0 版本。如下图所示为 3.05 版本
其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本,例如可以选择下载 tesseract-ocr-setup-3.05.01.exe。下载完成后双击安装,安装时可以勾选 Additional language data(download) 选项来安装 OCR 识别支持的语言包,这样 OCR 便可以识别多国语言。然后一路点击 Next 按钮即可。
接下来,再安装 tesserocr 即可,此时直接使用 pip 安装:
1 | pip install tesserocr pillow |
Linux 下的安装
对于 Linux 来说,不同系统已经有了不同的发行包了,它可能叫做 tesseract-ocr 或者 tesseract,直接用对应的命令安装即可。
Ubuntu,Debian 和 Deepin
在 Ubuntu,Debian 和 Deepin 系统下,安装命令如下:
1 | sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev |
CentOS, RedHat
在 CentOS 和 RedHat 系统下,安装命令如下:
1 | yum install -y tesseract |
在不同发行版上运行如上命令,即可完成 teseract 的安装。
安装完成后,便可以调用 tesseract 命令了。
接着我们查看一下其支持的语言:
1 | # tesseract --list-langs |
结果显示它只支持1种语言,如果想要安装多国语言,还需要安装语言包,官方叫做 tessdata(其下载连接为:https://github.com/tesseract-ocr/tessdata)
利用 Git 命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
- 在Ubuntu,Debian 和 Deepin 系统下的迁移命令如下:
1 | git clone https://github.com/tesseract-ocr/tessdata.git |
- 在 CentOS 和 RedHat 系统下的迁移命令如下:
1 | git clone https://github.com/tesseract-ocr/tessdata.git |
这样就可以将下载下来的语言包全部安装了。这时我们重新运行列出所有语言的命令:
1 | tesseract --list-langs |
可以发现这里列出的语言就多了很多,比如 chi_sim 就代表简体中文,这就证明语言包安装成功了。
接下来再安装 tesserocr 即可,这里直接使用 pip 安装:
1 | pip install tesserocr pillow |
Mac 下的安装
在 Mac 下,我们首先使用 Homebrew 安装 ImageMagick 和 tesseract 库:
1 | sudo port install imagemagick |
关于语言包的安装可以参考 Linux 的方式安装。区别就是 MacOS 的语言包存在位置为:/opt/local/share/tessdata
接下来再安装 tesserocr 即可:
1 | pip install tesserocr pillow |
验证安装
接下来,我们可以使用 tesseract 和 tesserocr 来分别进行测试。
下面我们以如下所示的图片为样例进行测试。
该图片的链接为 https://user-images.githubusercontent.com/45992270/75514843-702c3a00-5a33-11ea-8ea0-538db3a7366c.png
, 可以直接保存或下载。
首先用命令行进行测试,将图片下载下来并保存为 image.png,然后用 tesseract 命令测试:
1 | tesseract image.png result -l eng && cat result.txt |
运行结果如下:
1 | Tesseract Open Source OCR Engine v4.0.0 with Leptonica |
这里我们调用了 tesseract 命令,其中第一个参数为图片名称,第二个参数 result 为结果保存的目标文件名称,-l 指定使用的语言包,在此使用英文(eng)。然后,再调用 cat 命令将结果输出。
运行结果便是图片的识别结果:Python3WebSpider。可以看到,这时候已经成功将图片文字转为电子文本了。
然后还可以利用 Python 代码来测试,这里就需要借助于 tesserocr 库了,测试代码如下:
1 | import tesserocr |
我们首先利用 Image 读取了图片文件,然后调用了 tesserocr 的 image_to_text() 方法,再将其识别结果输出。
运行结果如下:
1 | Python3WebSpider |
另外,我们还可以直接调用 file_to_text(‘image.png’) 方法,这可以达到同样的效果:
1 | import tesserocr |
运行结果:
1 | Python3WebSpider |
如果成功输出,则证明 tesseract 和 tesserocr 都已经安装成功。
注意,在进入 Python3 解释器之前,需要在终端设置变量 LC_ALL=C,否则导入 tesserocr 时会出错。如下:
1 | !strcmp(locale, "C"):Error:Assert failed:in file baseapi.cpp, line 209 |
解决方法即在进入 Python 解释器之前,在终端输入如下命令:
1 | export LC_ALL=C |