Python 第三方库 selenium

Python 第三方库 selenium

初识 selenium

selenium 原本设计出来的目的是用作自动化测试,但是对于我而言,它是爬虫大杀器。绝大多数的网站,目前就我看到的,基本上没有对 selenium 做对应反扒策略的。注意:是基本上,我的确遇到过 selenium 失效的情况。

为什么 selenium 是爬虫大杀器?

selenium 的原理就是模拟浏览器,与其他的爬虫不同的是,selenium 是真的使用浏览器来进行操作的,模拟人的行为,所以不需要设置请求头,因为它是真实的操作浏览器。

selenium 的优缺点?

selenium 的优点就是 js 大杀器,爬虫做的多一定遇到过 js 加密的,这种反扒措施当让可以通过看 js 来反解,不过成本要高很多,如果爬取的成本大于数据本身,那么爬取便毫无意义。selenium 易于理解,因为是模拟人的操作,可以设置有头模式,看整个执行流程,如果出了问题,可以直接看出来。

selenium 的缺点就是性能,对于正常的 requests 爬虫,selenium 性能和效率实在是太低了。学习成本较高,我之所以说学习成本高,是因为如果只是入门很简单,但是当你需要做一些繁琐的事情的时候,你必须得深入了解,否则就必须再降低一个数量级的性能。 对我而言,通常不使用 selenium,对于 selenium 总感觉到很多不确定性,大概知道一些优化的方式,但是代码量会增加很多。

你可能感兴趣的:(Python,标准库,第三方库,python,selenium,爬虫)