爬虫小白第一篇

本文只记录自己学习爬虫(java版本)的笔记,为了防止自己忘记,闲话少叙,我要开始记录笔记了
爬虫的本质其实是机器替人去不停的访问互联数据,然后解析返回的数据,从中筛选出自己需要的数据。

1.创建maven工程

这一步很简单,创建一个空的maven工程就好

2.引入HttpClient客户端

HttpClient客户端相当于一个浏览器,去maven仓库引入一个即可



    org.apache.httpcomponents
    httpclient
    4.5.2

3.开始编码爬虫

public class Start {

    public static void main(String[] args) throws IOException {
        //打开浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //输入网址
        HttpGet httpGet = new HttpGet("https://www.douban.com/");

        //发起请求
        CloseableHttpResponse httpResponse = httpClient.execute(httpGet);

        //获取响应,解析html文本
        if (httpResponse.getStatusLine().getStatusCode() == 200) {
            HttpEntity entity = httpResponse.getEntity();
            System.out.println(EntityUtils.toString(entity, "utf-8"));
        }
    }
}

至此爬虫学习正式开始

你可能感兴趣的:(爬虫学习)