网络爬虫

首先明白互联网页面划分为五个部分:

1.已下载网页集合

2.已过期网页集合

3.待下载网页集合

4.可知网页集合

5.不可知网页集合




爬虫分为三种类型

1.批量性爬虫

2.增量型爬虫

3.垂直型爬虫


爬虫抓取的策略

1.宽度优先遍历

2.非完全PageRank

3.OPIC(Online Page Importantance Computation)

4.大站优先



你可能感兴趣的:(爬虫,网络爬虫)