python爬虫方向学习路线¶
小白级
—
常用库
- Requests 人性化python http库 功能强大
- Beautifulsoup4 解析器 用于解析得出你想要的信息
- re python 原生正则表达式库 匹配相关信息
- pymysql 连接数据库保存信息
基础技术¶
- http基本原理
- Web网页基础
- 爬虫基本原理
- Session和Cookies
- 代理基本原理
常用库¶
在小白基础之后
- Selenium Web应用程序测试工具 ,爬虫中主要用来解决JavaScript渲染问题。模拟浏览器进行网页加载
- Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架
技术¶
- Ajax数据爬取
- 非关系型数据库存储
- 动态渲染页面抓取
- 验证码的识别
- 模拟登陆