参考内容:Python3 网络爬虫开发实战-崔庆才
爬虫可以简单分为几步:抓取页面,分析页面和存储数据。
在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实现 HTTP 请求操作。
requests 的安装
由于 requests 属于第三方库,也就是 Python 默认不会自带这个库,所以需要我们手动安装。
more >>生如蝼蚁当立鸿鹄之志, 命如薄纸应有不屈之心!
原文地址: Python 自动化运维快速入门 (第2版)
在日常的运维工作中一般都离不开与文本打交道,如日志分析,编码转换,ETL 加工等。本节从编码原理,文件操作,读写配置文件,解析 XML 等实用编程知识出发,希望能抛砖引玉,为读者在处理文本问题时提供可行的方法。
more >>原文地址: Python 自动化运维快速入门 (第2版)
配置文件是提供程序运行时读取配置信息的文件,用于将配置信息与程序分离,这样做的好处是显而易见的,例如: 在开源社区贡献自己源代码时,将一些敏感信息通过配置文件读取;提交源代码时不提交配置文件可以避免自己的用户名,密码等敏感信息泄露;我们可以通过配置文件保存程序运行时的中间结果;将环境信息(如操作系统类型)写入配置文件会增加程序的兼容性,使程序变得更加通用。
more >>原文地址: Python 自动化运维快速入门 (第2版)
在 Python 中获取系统信息最便捷的模块是 psutil(Process and System Utilities)。通过几行代码就可以获取系统的相关信息,而且还是跨平台库。psutil 不属于标准库,需要手动安装。
1 | pip install psutil |
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia-plus根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent:
meta: false
pages: false
posts:
title: true
date: true
path: true
text: false
raw: false
content: false
slug: false
updated: false
comments: false
link: false
permalink: false
excerpt: false
categories: false
tags: true