webmagic中级:(三)

这里呢,我们会说一下webmagic 的第三个核心,shceduler,管理器,他在webmagic整体框架中主要实现的是对url 的一系列管理操作,也就是去重,过滤,分发等一系列行为。


这个呢就是我们所看到的的核心包里面的东西了,里面一共有2个接口,2个类,1个抽象类。我们还是挑重点看!


scheduler接口

  这个里面只有两个方法,一个是push,推送! 一个是poll ! 

    push 呢,方法主要是负责推送,在spider 添加地址的时候,会将url 封装成request,并且推送给scheduler,只不过在这里有一点点区别的就是,去重的操作,不是在scheduler 来进行的操作,而是spider 里面来进行完成的一部分才做,这里只是一个url 存储机制吧! 查看了源码才知道自己以前的一部分理解完全是有点问题的! 

如果这些呢,都不太符合你的需求的话,在webmagic-extension里面还存在很多的哦,总有一个适合你!

你可能感兴趣的:(webmagic中级:(三))