爬虫概念介绍

什么是爬虫?

一段代码,能够自动从互联网上收集需要的东西(图片、视频、音频等)

源于互联网的两个特性:

♣ 信息可获取(能够通过打开一个浏览器可以看到的信息;法律允许的范围内)

♣ 信息具有关联性(从一个网页调到另一个网页)

爬虫用什么实现? 

√ 理论上所有能允许的计算机语言

√ JavaScript、Java、PHP、Python……

☛ python是天命所归 

爬虫推荐的浏览器

● Chorme

● Firefox

● Opear

爬虫的法律风险

★ 你爬取的信息必须是能看到的公开信息

★ 高频次访问对方网站属于攻击行为

● 因为代码级可以做到每分钟访问1万次,会造成对方网站的资源消耗;

● 可以每爬完一个网页,休息几秒

爬虫知识体系

爬虫概念介绍_第1张图片

你可能感兴趣的:(python爬虫,python)