网络爬虫heritrix 3.1 在Windows上的搭建与使用方法说明

本文中使用的heritrix是3.1.0版本的,下载地址是

http://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/

需要下载两个文件夹heritrix-3.1.0-dist.zip和heritrix-3.1.0-src.zip

  1. 首先用eclipse建立工程Heritrix
  2. 将heritrix-3.1.0-dist.zip中\lib下面的jar包导入工程中。
  3. 将heritrix-3.1.0-src.zip中的\engine\src\main\java添加到工程的src目录中,如果将heritrix-3.1.0\commons\src\main\java 目录 和 heritrix-3.1.0\modules\src\main\java 目录也拷贝到src下可以删除heritrix-commons-3.1.0.jar,heritrix-engine-3.1.0.jar,heritrix-modules-3.1.0.jar三个包的引用。
  4. 找到org.archive.crawler包下的Heritrix类,右击鼠标单击选择“Run As -> Run Configurations”,然后单击Arguments,输入-a admin:admin,如下图所示网络爬虫heritrix 3.1 在Windows上的搭建与使用方法说明_第1张图片
  5. 然后运行Heritrix.java,如果一切正常,eclipse输出,如下图所示。
  6. 网络爬虫heritrix 3.1 在Windows上的搭建与使用方法说明_第2张图片
  7. 可以通过浏览器访问https://localhost:8443端口运行。打开页面后输入用户名和密码,输入admin,admin
  8. 登录管理控制台(用户名和密码都是admin),在管理界面首页找到如下图所示
  9. 网络爬虫heritrix 3.1 在Windows上的搭建与使用方法说明_第3张图片
  10. 输入一个名称(如,test),然后点击“create”按钮,创建一个job来抓取数据。
  11. 在口之胎的job directories中选择配置的job
  12. 点击test,进入test的管理界面。
  13. 编辑crawler-beans.xml文件
  14. 点击edit按钮,开始编辑配置文件,配置需要修改的地方如下:
  15. 修改metadata.operatorContactUrl=http://127.0.0.1
  16. 找到bean id = "longerOverrides",修改seet.textSource.value的值,即设定要抓取的URL,比如可设为http://www.163.com/
  17. 返回test的配置界面,运行爬虫任务
  18. 点击build编辑当前的配置。
  19. 点击“launch”按钮运行当前任务至挂起状态,如果job已经运行,则先点击“teardown”按钮;
  20. 点击checkpoint按钮,设置断点
  21. 点击unpause运行抓取任务。
  22. 在项目的jobs\test\20150727065600\warcs目录下有一个逐步增大的文件,这就是抓取下来的网页。
  23. 以上是默认的抓取工作,要想更改一些配置,请看博客http://www.chepoo.com/heritrix-3-development-examples.html

你可能感兴趣的:(Java)