Java 数据抓取

大家好我是苏麟 , 今天聊聊数据抓取 . 

大家合理使用

注意,爬虫技术不能滥用,干万不要给别人的系统造成压力、不要侵犯他人权益!

数据抓取

实质上就是java程序模拟浏览器进行目标网站的访问,无论是请求目标服务器的接口还是请求目标网页内容,都是要在java程序中对数据进行解析。最简单的抓取方式有httpclient请求目标服务器接口,jsoup请求目标页面内容,把请求的数据进行解析然后入库。另外要做好爬取的实时监控,如果URL请求失败3次,就放弃该URL的抓取。

获取不同类型的数据源

数据抓取流程

1.分析数据源,怎么获取?
2.拿到数据后,怎么处理?
3.写入数据库等存储

数据抓取的几种方式

1.直接请求数据接口(最方便),可使用 HttpClient,OKHttp,RestTemplate,Hutool(https://hutool.cn/)

等客户端发送请求

2.等网页渲染出明文内容后,从前端完整页面中解析出需要的内容

3.有一些网站可能是动态请求的,他不会一次性加载所有的数据,而是要你点某个按钮、输入某个验证码才会显示出数据。可使用无头浏览器:selenium、nodejs puppeteer

Hutool 工具 : 入门和安装 (hutool.cn)

Java 数据抓取_第1张图片

HttpClient : Apache HttpComponents – HttpClient Overview

Java 数据抓取_第2张图片

OKHttp : Overview - OkHttp (square.github.io)

Java 数据抓取_第3张图片

注意,爬虫技术不能滥用,干万不要给别人的系统造成压力、不要侵犯他人权益!

获取文章

内部没有,可以从互联网上获取基础数据=>爬虫

'一般的网站会发出http请求我们找到路径 , 我们在IDEA里调用发送http请求的工具就好了 . 

Java 数据抓取_第4张图片

在代码里根据自己的需求完成操作 .


这期就到这里 , 下期见!

你可能感兴趣的:(java项目中高效开发,java,后端,数据)