python爬虫方向学习路线

小白级

常用库

  • Requests 人性化python http库 功能强大
  • Beautifulsoup4 解析器 用于解析得出你想要的信息
  • re python 原生正则表达式库 匹配相关信息
  • pymysql 连接数据库保存信息

基础技术

  • http基本原理
  • Web网页基础
  • 爬虫基本原理
  • Session和Cookies
  • 代理基本原理

学习成果检验

能够完成小说的内容爬取并存入数据库

入门级

常用库

在小白基础之后

  • Selenium Web应用程序测试工具 ,爬虫中主要用来解决JavaScript渲染问题。模拟浏览器进行网页加载
  • Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架

技术

  • Ajax数据爬取
  • 非关系型数据库存储
  • 动态渲染页面抓取
  • 验证码的识别
  • 模拟登陆

书籍

  • python网络爬虫实战
  • Python网络数据采集

学习成果检验

独立完成基于scrapy爬虫的天气数据采集