参考内容:Python3 网络爬虫开发实战-崔庆才
抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有多种多样,可以使用正则来提取,但是写起来相对较繁琐。这里还有许多强大的解析库,如 lxml,Beautiful Soup,pyquery 等。此外还提供了非常大的解析方法,如 XPath 解析和 CSS 选择器解析等,利用它们,我们可以高效便捷地从网页中提取有效信息。
more >>生如蝼蚁当立鸿鹄之志, 命如薄纸应有不屈之心!
数据客户化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。
常见的数据可视化库有:
官方文档地址: os – 各种操作系统接口
os 模块是 Python 标准库中的一个用于访问操作系统相关功能的模块,os 提供了一种可移植的使用操作系统功能的方法。使用 os 模块中提供的接口,可以实现跨平台访问,但是,并不是所有的 os 模块中的接口在全平台都通用,有些接口的实现是依赖特定平台的,比如 Linux 相关的文件权限管理和进程管理。
os 模块的主要功能有:
more >>subprocess 是 Python 自带的模块,无须安装,它主要用来取代一些旧的模块或方法,如 os.system
, os.spawn*
, os.popen*
, commands.*
等,因此如果需要使用 Python 调用外部命令或任务时,则优先使用 subprocess 模块。使用 subprocess 模块可以方便地执行操作系统支持的命令,可与其他应用程序结合使用。
subprocess.run()
是官方推荐使用的方法,几乎所有的工作都可以由它来完成。
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia-plus根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true