Java爬虫批量爬取图片

Java 爬取图片
现在开始学习爬虫,对于爬虫的入门来说,图片相对来说是比较容易获取的,因为大部分图片都不是敏感数据,所以不会遇到什么反爬措施,对于入门爬虫来说是比较合适的。

使用技术:Java 基础知识、HttpClient 4.x 、Jsoup
学习目标:下载静态资源图片。

爬取思路
对于这种图片的获取,其实本质上就是就是文件的下载(HttpClient)。但是因为不只是获取一张图片,所以还会有一个页面解析的处理过程(Jsoup)。

Jsoup:解析 html 页面,获取图片的链接。
HttpClient:请求图片的链接,保存图片到本地。

具体步骤
首先进入首页分析,主要有以下几个分类(这里不是全部分类,但是这几个也足够了,这只是学习技术而已。),我们的目标就是获取每个分类下的图片。

这里来分析一下网站的结构,我这里就简单一点吧。
下面这张图片是大致的结构,这里选取一个分类标签进行说明。
一个分类标签页含有多个标题页,然后每个标题页含有多个图片页。(对应标题页的几十张图片)

对网站的结构有了大致了解之后,就可以着 手开始爬取图片了。
这里还有一个需要注意,大概是前辈们做得太过了,导致这个网站已经开始有反爬虫机制了。不过,幸好它还不是很强大,我们还是可以绕过去的。这个网站的反爬虫机制主要就是:UA、Referer。

你可能感兴趣的:(java,java,爬虫,python)