python爬虫方向学习路线¶

小白级

—

常用库

Requests 人性化python http库功能强大
Beautifulsoup4 解析器用于解析得出你想要的信息
re python 原生正则表达式库匹配相关信息
pymysql 连接数据库保存信息

基础技术¶

http基本原理
Web网页基础
爬虫基本原理
Session和Cookies
代理基本原理

学习成果检验¶

能够完成小说的内容爬取并存入数据库

入门级

—

常用库¶

在小白基础之后

Selenium Web应用程序测试工具 ,爬虫中主要用来解决JavaScript渲染问题。模拟浏览器进行网页加载
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架

技术¶

Ajax数据爬取
非关系型数据库存储
动态渲染页面抓取
验证码的识别
模拟登陆

书籍¶

python网络爬虫实战
Python网络数据采集

学习成果检验

独立完成基于scrapy爬虫的天气数据采集