Heritrix 入门教程

HeritrixDemo

Heritrix是由java语言开发的一种开放源代码的网络爬虫框架,对网站内容全部下载,不会修改页面中的任何内容。可以用Heritrix来完整、精确地抓取网站中的资源,包括视频、音频、图像以及其它非文本内容,抓取并把这些内容存储在磁盘中。爬虫通过Web界面启动、监控、控制,允许用户自定义要获取的URL, 采用Spring框架进行设计,实现解耦,有很好的扩展性。

QuickStart

Syetem requirements

  • Linux 发行版 (windows 官方没有跑通过, 慎重选择!)
  • JDK 1.6 (亲测1.7没问题, 1.8由于KeyTool类包名发生变化没法使用)

Install

  • 下载所需要的包Heritrix(需要科学上网)
  • 打开网页下载heritrix-3.3.0-20171004.235237-94-dist.tar.gz

Run

  • 进入到bin目录
    cd bin
  • 启动Heritrix
    ./heritrix -a admin:admin
  • 在web界面查看https://localhost:8443  
    Heritrix 入门教程_第1张图片
    WEBUI

Create New Job

  • 通过Web配置

新建任务  

Heritrix 入门教程_第2张图片
新建任务
!
管理任务  
Heritrix 入门教程_第3张图片
管理任务

配置任务(添加种子)
Heritrix 入门教程_第4张图片
配置任务

Start job

  • Build -> Launch -> Unpause
    源码

你可能感兴趣的:(Heritrix 入门教程)