Java爬虫--WebMagic框架(一)

一、WebMagic简介

  webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。
  WebMagic框架包含四个组件,PageProcessor、Scheduler、Downloader和Pipeline。
  这四大组件对应爬虫生命周期中的处理、管理、下载和持久化等功能。
  这四个组件都是Spider中的属性,爬虫框架通过Spider启动和管理。
四大组件:
PageProcessor负责解析页面,抽取有用信息,以及发现新的链接。需要自己定义。
Scheduler 负责管理待抓取的URL,以及一些去重的工作。一般无需自己定制Scheduler。
Pipeline 负责抽取结果的处理,包括计算、持久化到文件、数据库等。
Downloader负责从互联网上下载页面,以便后续处理。一般无需自己实现。

地址:http://webmagic.io/
文档地址:http://webmagic.io/docs/zh/posts/ch1-overview/

二、Maven依赖


    us.codecraft
    webmagic-core
    0.7.3


    us.codecraft
    webmagic-extension
    0.7.3


三、简单示例

需求:
网址:https://www.cnblogs.com/
  抓取博客园首页贴子作者名称。

  1. 网站分析
    1)首页分析


    链接
# 格式
https://www.cnblogs.com/it-carry/p/11987576.html
https://www.cnblogs.com/lenve/p/11987428.html

源码分析

2)二级页面分析
https://www.cnblogs.com/it-carry/p/11987576.html
获取作者名称

  1. 代码编写
/**
 *  实现PageProcessor接口,重写process方法与getSite方法
 */
public class WebMagicProcessor implements PageProcessor {
    // 抓取网站的相关配置,包括编码、抓取间隔、重试次数等
    private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
    // 处理数量
    private static int count =0;

    public static void main(String[] args) {
        long startTime, endTime;
        System.out.println("开始爬取...");
        startTime = System.currentTimeMillis();
        // 创建爬虫,设置站点地址为:https://www.cnblogs.com/,并启动5个线程
        Spider.create(new WebMagicProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();
        endTime = System.currentTimeMillis();
        System.out.println("爬取结束,耗时约" + ((endTime - startTime) / 1000) + "秒,抓取了"+count+"条记录");
    }

    /**
     * 获取站点page,并进行匹配
     * @param page
     */
    @Override
    public void process(Page page) {
        // 判断链接是否符合http://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式
        if(!page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){
            // 加入满足条件的链接
            page.addTargetRequests(
                    // 获取ID为 post_list 中的链接
                    page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class='post_item_body']/h3/a/@href").all());
            //获取页面需要的内容
            System.out.println("抓取的内容:"+
                    // ID 为Header1_HeaderTitle中的文本
                    page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get()
            );
            count ++;
        }
    }

    /**
     * 获取站点
     * @return
     */
    @Override
    public Site getSite() {
        return site;
    }
}

  1. 抓取结果


    抓取结果

四、Downloader

  Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

五、PageProcessor

  PageProcessor负责解析页面,抽取有用信息,以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析XPath的工具Xsoup。
  在这四个组件中,PageProcessor对于每个站点每个页面都不一样,是需要使用者定制的部分。

六、Scheduler

  Scheduler负责管理待抓取的URL,以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL,并用集合来进行去重。也支持使用Redis进行分布式管理。
  除非项目有一些特殊的分布式需求,否则无需自己定制Scheduler。

七、Pipeline

  Pipeline负责抽取结果的处理,包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。
  Pipeline定义了结果保存的方式,如果你要保存到指定数据库,则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

你可能感兴趣的:(Java爬虫--WebMagic框架(一))