1 python基础教程
廖雪峰
https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
菜鸟教程
http://www.runoob.com/python3/python3-tutorial.html
2 爬虫基本步骤(重点)
工匠若水
理解基本爬虫思路
http://blog.csdn.net/yanbober/article/details/73162298
一个爬虫的核心流程其实就是拿到一个 URL,下载下来这个 URL 指定的数据(网页或者结构化数据),解析出有价值的数据供自己使用,所以其实爬虫的核心机制流程就是不停的重复执行这个流程,日复一日的帮你在那各种爬呀爬呀爬。
这个过程可以分解为 下载、解析、输出、url调度等几个部分。
理解重点步骤:
下载器与解析器
http://blog.csdn.net/yanbober/article/details/73196269
后续部分也可以扩展学习,该博客写的非常不错。
3 爬虫基础知识介绍(重点)
崔庆才
https://cuiqingcai.com/category/technique/python
包括网络爬虫基本知识介绍、基础包如urllib(python基础包),requests(下载), beautifulsoup、lxml(解析)的使用
4 urllib用法详解
http://blog.csdn.net/riba2534/article/details/53958026
5 request文档
http://docs.python-requests.org/zh_CN/latest/index.html
6 爬虫实例:糗事百科
https://cuiqingcai.com/990.html
7 爬虫实例:爬取天气数据
http://blog.csdn.net/u013063099/article/details/72845099
8 爬虫实战大全
http://blog.csdn.net/baidu_21833433/article/details/70315081
9 selenium动态网页爬虫
Selenium 采用自动化测试进行 动态网页加载
基础知识
http://www.51testing.com/zhuanti/selenium.html
案例:淘宝页面
http://blog.csdn.net/ljr257816/article/details/53956980
案例:qq空间
http://blog.csdn.net/qq_30242609/article/details/53925298
10 爬虫框架
scrapy入门教程
http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html