WebMagic

介绍

WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。

WebMagic的设计目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的API，在基本不改变开发模式的情况下，编写一个爬虫。

扩展部分(webmagic-extension)提供一些便捷的功能，例如注解模式编写爬虫等。同时内置了一些常用的组件，便于爬虫开发。

架构

WebMagic的结构分为Downloader(下载，向Scheduler要下载的地址)、PageProcessor(页面解析)、Scheduler（存放url下载队列）、Pipeline（输出到mysql,文件等）四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy，但是实现方式更Java化一些。

而Spider则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为Spider是一个大的容器，它也是WebMagic逻辑的核心

WebMagic的四个组件

1.Downloader
Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

2.PageProcessor
PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。

在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。

3.Scheduler
Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。

4.Pipeline
Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。

Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

架构图

Downloader从互联网下载一般用的是http请求，下载之后拿到的是一个html页面,把下载的内容封装为一个page对象

1）PageProcessor对page对象进行解析，把需要的数据封装到ResultItems中，传递给Pipeline
2）Scheduler 通过request（对url地址的封装）从PageProcesser中拿到url，Scheduler再通过request分发给downloader

Pipeline拿到ResultItems（相当于一个map），做对应的持久化

PageProcessor组件及入门案例

PageProcessor组件

PageProcessor组件是实现核心业务逻辑的组件，在使用WebMagic的使用必须要自定义PageProcessor组件。需要自定一个类实现PageProcessor接口。此接口中有两个方法需要实现一个是getSite方法，此方法需要返回一个Site对象。一个是一个是process方法，此方法没有返回值，方法有个参数是Page对象。

入门案例

依赖


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>com.itheimagroupId>
    <artifactId>crawler_day02_1artifactId>
    <version>1.0-SNAPSHOTversion>

    <dependencies>
        
        <dependency>
            <groupId>us.codecraftgroupId>
            <artifactId>webmagic-coreartifactId>
            <version>0.7.3version>
        dependency>
        <dependency>
            <groupId>us.codecraftgroupId>
            <artifactId>webmagic-extensionartifactId>
            <version>0.7.3version>
        dependency>
        <dependency>
            <groupId>com.google.guavagroupId>
            <artifactId>guavaartifactId>
            <version>16.0version>
        dependency>

    dependencies>

project>

代码实现

package com.itheima.webmagic;

import org.apache.commons.io.FileUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.BloomFilterDuplicateRemover;
import us.codecraft.webmagic.scheduler.QueueScheduler;

import java.util.BitSet;
import java.util.List;

public class MyPageProcessor implements PageProcessor {
    public void process(Page page) {

	//把数据交给Pipeline进行输出
    page.putField("content",page.getHtml().css("div#news_div ul li a",
    "text").all());

	//可以对爬虫进行一些配置
    private Site site = Site.me();

	public Site getSite() {
        return site;
    }
    
	//WebMagic使用的默认下载器是HttpClient
    public static void main(String[] args) {

        //提供自己定义的PageProcessor
        Spider.create(new MyPageProcessor())
                //设置初始下载url地址
                .addUrl("https://www.jd.com/moreSubject.aspx")
                .run();

Site对象

Site对象，可以使用Site.me()创建。
在此对象中可以对爬虫进行一些配置配置，包括编码、抓取间隔、超时时间、重试次数等。

//可以对爬虫进行一些配置
    private Site site = Site.me()
    		// 单位是秒
            .setCharset("UTF-8")//编码
            .setSleepTime(1)//抓取间隔时间,可以解决一些反爬限制
            .setTimeOut(1000 * 10)//超时时间
            .setRetrySleepTime(3000)//重试时间
            .setRetryTimes(3);//重试次数

Site对象中提供的配置方法列表：

方法	说明	示例
setCharset(String)	设置编码	site.setCharset(“utf-8”)
setUserAgent(String)	设置UserAgent	site.setUserAgent(“Spider”)
setTimeOut(int)	设置超时时间，单位是毫秒	site.setTimeOut(3000)
setRetryTimes(int)	设置重试次数	site.setRetryTimes(3)
setCycleRetryTimes(int)	设置循环重试次数	site.setCycleRetryTimes(3)
addCookie(String,String)	添加一条cookie	site.addCookie(“dotcomt_user”,“code4craft”)
setDomain(String)	设置域名，需设置域名后，addCookie才可生效	site.setDomain(“github.com”)
addHeader(String,String)	添加一条addHeader	site.addHeader(“Referer”,“https://github.com”)

page对象

Page对象是PageProcess组件中的核心对象，此对象中包含三个核心操作：

获取Downloader对象下载结果。
当我们需要从page对象中获得下载结果时，可以使用page对象的getHtml()方法。
此方法的返回结果就是一个Html对象，也可以看做把这个html页面解析之后映射成一个Html对象，Html对象实现了Selectable接口，是可以直接使用Selectable接口中提供的选择器。
向Scheduler对象中添加Request对象也就是待访问的url，
使用addTargetRequest或者addTargetRequests方法可以将解析出来的链接添加到url访问队列，系统会把url封装成Request对象供Scheduler对象使用。

3）向Pipeline对象中设置输出结果
使用putField方法可以将解析的结果添加到ResultItems对象中，将来在Pipeline对象中可以取到这个数据。

Selectable对象

抽取元素

Selectable相关的抽取元素链式API是WebMagic的一个核心功能。使用Selectable接口，可以直接完成页面元素的链式抽取，也无需去关心抽取的细节。

XPath
以下是获取属性class=mt的div标签，里面的h2标签的内容
page.getHtml().xpath("//div[@class=mt]/h2/text()")
CSS选择器
CSS选择器是与XPath类似的语言。它比XPath写起来要简单一些，但是如果写复杂一点的抽取规则，就相对要麻烦一点。
div.mt>h1表示class为mt的div标签下的直接子元素h2标签
page.getHtml().css(“div.mt>h2”).toString()。
具体规则见css选择器
正则表达式
正则表达式则是一种通用的文本抽取语言。在这里一般用于获取url地址。正则表达式学习难度要大一些。
建议不是专门用的话，不需要去专门的学。
但是如果是专业爬虫的话，很多语言是都支持正则的，并且在代码量上来说更简洁。

	//links:获取所有连接  regex:使用正则  
	// addTargetRequests添加多个url到url任务队列中
     page.addTargetRequests(page.getHtml()
    .css("#news_diva").links()
    .regex("https://www.jd.com/news.html.*3$")
    .all());

获取结果

方法	说明	示例
get()	返回一条String类型的结果	String link= html.links().get()
toString()	同get()，返回一条String类型的结果	String link= html.links().toString()
all()	返回所有抽取结果	List links= html.links().all()

使用Pipeline保存结果

在WebMagic中，Pileline是抽取结束后，进行数据处理的部分，它主要用于抽取结果的保存，也可以定制Pileline可以实现一些通用的功能。
在这里我们可以指定输出的位置，可以是控制台也可以是文件，当然也可以用户自定义Pipeline实现数据导入到数据库中。

现有的Pipeline

类	说明	备注
ConsolePipeline	输出结果到控制台	抽取结果需要实现toString方法
FilePipeline	保存结果到文件	抽取结果需要实现toString方法
JsonFilePipeline	JSON格式保存结果到文件
ConsolePageModelPipeline	(注解模式)输出结果到控制台
FilePageModelPipeline	(注解模式)保存结果到文件
JsonFilePageModelPipeline	(注解模式)JSON格式保存结果到文件想持久化的字段需要有getter方法

代码实现添加FilePipeline

//提供自己定义的PageProcessor
Spider.create(new MyPageProcessor())
//设置初始下载url地址
      .addUrl("https://www.jd.com/moreSubject.aspx")
//添加文件输出的Pipeline
	  .addPipeline(new FilePipeline("D:\\crawler"))

Scheduler组件

WebMagic提供了Scheduler可以帮助我们解决下载目标url管理的问题。

Scheduler是WebMagic中进行URL管理的组件。一般来说，Scheduler包括两个作用：

对待抓取的URL队列进行管理。
对已抓取的URL进行去重。

WebMagic内置了几个常用的Scheduler。如果你只是在本地执行规模比较小的爬虫，那么基本无需定制Scheduler，但是了解一下已经提供的几个Scheduler还是有意义的。

去重部分被单独抽象成了一个接口：DuplicateRemover，从而可以为同一个Scheduler选择不同的去重方式，以适应不同的需要，目前提供了两种去重方式。

RedisScheduler是使用Redis的set进行去重，其他的Scheduler默认都使用HashSetDuplicateRemover来进行去重。

三种去重方式

HashSet（小型爬虫）
使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。
缺点：占用内存大，性能较低。
Redis去重（超大型爬虫，可以搭集群）
使用Redis的set进行去重。优点是速度快（Redis本身速度就很快），而且去重不会占用爬虫服务器的资源，可以处理更大数据量的数据爬取。
缺点：需要准备Redis服务器，增加开发和使用成本。
布隆过滤器（BloomFilter）（大型爬虫）
使用布隆过滤器也可以实现去重。优点是占用的内存要比使用HashSet要小的多，也适合大量数据的去重操作。
缺点：有误判的可能。没有重复可能会判定重复，但是重复数据一定会判定重复。

布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出，它是一种space efficient的概率型数据结构，用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。
哈希表也能用于判断元素是否在集合中，但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元素，但不可以删除已有元素。其中的元素越多，误报率越大，但是漏报是不可能的（重复的一定找得到，但是有可能漏抓）。原理见算法

Spider

Spider是爬虫启动的入口。在启动爬虫之前，我们需要使用一个PageProcessor创建一个Spider对象，然后使用run()进行启动。

同时Spider的其他组件（Downloader、Scheduler、Pipeline）都可以通过set方法来进行设置。

案例：爬取51job上的招聘信息

依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.0.2.RELEASE</version>
    </parent>
    <groupId>com.ithiema</groupId>
    <artifactId>crawler_day02_51job</artifactId>
    <version>1.0-SNAPSHOT</version>


    <properties>
        <java.version>1.8</java.version>
    </properties>

    <dependencies>
        <!--SpringMVC-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!--测试组件-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
        </dependency>

        <!--SpringData Jpa-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-jpa</artifactId>
        </dependency>

        <!--MySQL连接包-->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
        </dependency>

        <!--WebMagic核心包-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <!--WebMagic扩展-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>
        <!--WebMagic对布隆过滤器的支持-->
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>16.0</version>
        </dependency>

    </dependencies>
</project>

JobPageProcessor

package com.itheima.wuyijob.crawler;

import com.itheima.wuyijob.pojo.JobInfo;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.List;

@Component
public class JobPageProcessor implements PageProcessor {

    @Autowired
    private JpaPipeline jpaPipeline;

    // 测试代码
//    String url = "https://www.jd.com/news.html?id=38673";
    String url = "https://search.51job.com/list/010000,000000,0000,32%252C38,9,99,java,2,1.html?" +
        "lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99" +
        "&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";

    @Override
    public void process(Page page) {
        // 测试代码
//        page.putField("content",page.getHtml().css("div.mt h1","text").all());

        // 获取列表页的职位详情url
        List<String> urlList = page.getHtml().css("div#resultList div.el p.t1").links().all();
//        urlList.forEach(e -> System.out.println(e));

        // urlList没有值，页面是职位详情页，如果有值，是职位列表页
        if (urlList.size()>0){
            // 把职位详情url放到url管理列表中
            page.addTargetRequests(urlList);
            // 获取下一页的地址,到这就一直不会停，会一直下一页，具体原因参考csdn架构图
            page.addTargetRequests(page.getHtml().css("li.bk").links().all());
        }else {
            // 解析页面并存放结果到ResultItems里
            parseJobInfo(page);
        }
    }

    private void parseJobInfo(Page page) {
        // 创建职位详情对象，用来存放解析的数据
        JobInfo jobInfo = new JobInfo();
        // 解析页面获取数据
        Html html = page.getHtml();
        jobInfo.setJobName(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > h1","text").get());
        jobInfo.setSalary(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > strong","text").get());
        jobInfo.setCompanyName(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > p.cname > a.catn","text").get());
        jobInfo.setJobAddr(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tHeader.tHjob > div > div.cn > p.msg.ltype","text").get());
        jobInfo.setJobInfo(html.css("body > div.tCompanyPage > div.tCompany_center.clearfix > div.tCompany_main > div:nth-child(1) > div","text").get());
        jobInfo.setUrl(page.getUrl().toString());
        // 封装好的职位详情数据存放到resultItems中
        page.putField("jobInfo",jobInfo);
    }

    // 添加定时任务配置
    // initialDelay，项目启动成功后，多久执行任务，单位毫秒
    // fixedDelay，任务执行完成后，间隔多久下一次任务执行，单位毫秒
    @Scheduled(initialDelay = 1000, fixedDelay = 10000)
    public void run(){
        Spider.create(new JobPageProcessor())
        // 使用自定义的PipeLine保存数据
        .addPipeline(jpaPipeline)
        .addUrl(url)
        .thread(20)
        .run();
    }

    private Site site = Site.me()
            .setTimeOut(10*  1000); // 超时10s

    @Override
    public Site getSite() {
        return site;
    }
}

JpaPipeline

package com.itheima.wuyijob.crawler;

import com.itheima.wuyijob.pojo.JobInfo;
import com.itheima.wuyijob.service.JobInfoService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

/**
 * 实现PipeLine和使用定时器
 */
@Component
public class JpaPipeline implements Pipeline {

    @Autowired
    private JobInfoService jobInfoService;

    @Override
    public void process(ResultItems resultItems, Task task) {
        // 获取职位数据
        JobInfo jobInfo = resultItems.get("jobInfo");


        if (jobInfo!=null){
                jobInfoService.save(jobInfo);
        }
    }
}

代理的使用

有些网站不允许爬虫进行数据爬取，因为会加大服务器的压力。其中一种最有效的方式是通过ip+时间进行鉴别，因为正常人不可能短时间开启太多的页面，发起太多的请求。

提供两个免费代理ip的服务商网站：
米扑代理
https://proxy.mimvp.com/free.php
西刺免费代理IP
http://www.xicidaili.com/

代码实现

package com.itheima.day03.job;

import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.downloader.HttpClientDownloader;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.proxy.Proxy;
import us.codecraft.webmagic.proxy.SimpleProxyProvider;


public class ProxyTest implements PageProcessor {
    @Override
    public void process(Page page) {
        System.out.println("获取到的自己的ip地址是:");
        System.out.println(page.getHtml().css("center", "text").get());
    }

    private Site site = Site.me();

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        //创建下载器
        HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
        //设置代理服务器
        httpClientDownloader.setProxyProvider(SimpleProxyProvider.from(
                new Proxy("27.203.165.139",8060 )
        ));
        Spider.create(new ProxyTest())
                .addUrl("http://2019.ip138.com/ic.asp")
                //把设置好代理服务器的下载器进行使用
                .setDownloader(httpClientDownloader)
                .run();
    }
}

Selenium+headless浏览器实现动态爬虫

我们可以使用HttpClient模拟浏览器抓取静态html，但是对js的解析部分还是很薄弱。虽然我们可以读取js的运作机制并且找到相关数据，但是这样会耗费大量时间。为了解决这个问题我们可以使用工具来模拟浏览器的运行，直接获取解析结果。这就是使用Selenium+headless浏览器来实现动态爬虫。

例如京东商品页：先加载的一个html没有价格，加载完之后会执行js，js会发起ajax或者类似的远程调用获取价格，然后再写入html页面中的价格去。所以此时页面的价格是一般爬虫无法爬取的，它的价格是在另一个请求中。

Selenium
Selenium是一个用于Web应用程序测试的工具。Selenium可以使用代码控制浏览器，就像真正的用户在操作一样。而对于爬虫来说，使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。Selenium支持多种浏览器可以是chrome、Firefox、PhantomJS等

使用WebDriver在Chrome浏览器上进行测试时或者做页面抓取，需要从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序，驱动程序名为chromedriver。chromedriver的版本需要和本机的chrome浏览器对应，才能正常使用，一般情况下下载最新版就可以了。

headless浏览器(PhantomJS(这个和headless应该是等价的，但是这个已经被弃用了))
一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现

使用动态爬虫爬取京东商城的完整数据

京东现在貌似增加了反爬策略，在之后爬取的过程中报sesssion错误的问题，不过不是很确定

需求分析

要爬取京东商城的完整商品数据，需要使用无头浏览器来进行数据抓取，这样就可以取到搜索结果页面的后半部分数据。（这个案例）只能爬取30个详情，具体为什么不太明白。

WebMagic框架默认使用的是HttpClient下载页面，所以我们需要把HttpClient换成无头浏览器，那么就需要定制Downloader组件。

依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.0.2.RELEASE</version>
    </parent>

    <groupId>com.itheima</groupId>
    <artifactId>crawler_day03_jd</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!--SpringData Jpa-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-jpa</artifactId>
        </dependency>

        <!--单元测试-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
        </dependency>

        <!--MySQL连接包-->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
        </dependency>

        <!--WebMagic核心包-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <!--WebMagic扩展-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>

        <!--selenium依赖-->
        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.13.0</version>
        </dependency>
    </dependencies>


</project>

JdChromeDownloader

package com.itheima.cralwer.crawler;

import org.openqa.selenium.By;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.remote.RemoteWebDriver;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.downloader.Downloader;
import us.codecraft.webmagic.selector.PlainText;

@Component
public class JdChromeDownloader implements Downloader {

    //声明驱动
    private RemoteWebDriver driver;

    public JdChromeDownloader() {
        //第一个参数是使用哪种浏览器驱动
        //第二个参数是浏览器驱动的地址
        System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver\\chromedriver.exe");

        //创建浏览器参数对象
        ChromeOptions chromeOptions = new ChromeOptions();

        // 设置为 headless 模式,上课演示,或者学习不要打开
        // chromeOptions.addArguments("--headless");
        // 设置浏览器窗口打开大小
        chromeOptions.addArguments("--window-size=1280,700");

        //创建驱动
        this.driver = new ChromeDriver(chromeOptions);
    }

    @Override
    public Page download(Request request, Task task) {
        try {
            driver.get(request.getUrl());
            Thread.sleep(2000);

            //无论是搜索页还是详情页,都滚动到页面底部,所有该加载的资源都加载
            //需要滚动到页面的底部,获取完整的商品数据
            driver.executeScript("window.scrollTo(0, document.body.scrollHeight - 1000)");
            Thread.sleep(2000l);

            //获取页面对象
            Page page = createPage(request.getUrl(), driver.getPageSource());

            //判断是否是搜索页
            if (request.getUrl().contains("search")) {
                //如果请求url包含search,说明是搜索结果页
                //在搜索结果页,需要获取下一页的链接地址
                //点击下一页按钮,在下一页中获取当前页的url(就是下一页的url),放到任务队列中
                WebElement next = driver.findElement(By.cssSelector("a.pn-next"));
                //点击
                next.click();

                //获取当前页面(其实就是下一页)的url地址
                String nextUrl = driver.getCurrentUrl();

                //使用page对象,把下一页url放到任务列表中
                page.addTargetRequest(nextUrl);
            }

            //关闭浏览器
            //driver.close();

            return page;

        } catch (InterruptedException e) {
            e.printStackTrace();
        }


        return null;
    }

    @Override
    public void setThread(int threadNum) {

    }

    //构建page返回对象
    private Page createPage(String url, String content) {
        Page page = new Page();
        page.setRawText(content);
        page.setUrl(new PlainText(url));
        page.setRequest(new Request(url));
        page.setDownloadSuccess(true);

        return page;
    }

}

JdPageProcessor

package com.itheima.cralwer.crawler;

import com.itheima.cralwer.pojo.Item;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

import java.util.ArrayList;
import java.util.Date;
import java.util.List;

public class JdPageProcessor implements PageProcessor {
    @Override
    public void process(Page page) {
        //System.out.println(page.getHtml().css("div.mt h1", "text"));
        //获取页面中的商品列表数据,只有搜索结果页才有商品列表
        List<Selectable> nodes = page.getHtml().css("#J_goodsList li.gl-item").nodes();

        //判断nodes是否有值
        if (nodes != null && nodes.size() > 0) {
            //如果有值表示是搜索结果页

            //声明存放商品的集合
            List<Item> itemList = new ArrayList<>();

            //遍历商品项
            for (Selectable node : nodes) {
                //获取商品spu
                String spu = node.css("li", "data-spu").get();

                //获取商品的sku,一个spu有可能有多个sku
                List<String> skuList = node.css("li.ps-item img", "data-sku").all();


                //遍历sku
                for (String sku : skuList) {
                    //创建对象
                    Item item = new Item();

                    //设置数据
                    item.setSpu(Long.parseLong(spu));
                    item.setSku(Long.parseLong(sku));
                    item.setCreated(new Date());
                    item.setUpdated(item.getCreated());

                    //放到集合中
                    itemList.add(item);

                    //把商品详情页的url放到url任务队列中
                    page.addTargetRequest("https://item.jd.com/" + sku + ".html");
                }

            }

            //把需要持久化的数据放到ResultItems中
            page.putField("itemList", itemList);


        } else {
            //如果没有值表示是商品详情页
            //创建商品对象
            Item item = new Item();
            String sku = page.getHtml().css("div.left-btns a.J-follow", "data-id").get();

            item.setSku(Long.parseLong(sku));
            item.setTitle(page.getHtml().css("div.sku-name", "text").get());
            item.setPrice(page.getHtml().css("span.p-price span.price", "text").get());
            item.setUrl(page.getUrl().toString());

            //保存到ResultItems中
            page.putField("item", item);
        }


    }

    private Site site = Site.me().setTimeOut(2000);

    @Override
    public Site getSite() {
        return site;
    }
}

JpaPipeline

package com.itheima.cralwer.crawler;

import com.itheima.cralwer.pojo.Item;
import com.itheima.cralwer.service.ItemService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

import java.util.List;

@Component
public class JpaPipeline implements Pipeline {

    @Autowired
    private ItemService itemService;

    @Override
    public void process(ResultItems resultItems, Task task) {
        //获取商品列表页数据
        List<Item> itemList = resultItems.get("itemList");

        if (itemList != null && itemList.size() > 0) {
            itemService.saveItemList(itemList);
        }


        //获取商品详情页数据
        Item item = resultItems.get("item");
        if (item != null) {
            itemService.saveItem(item);
        }

    }
}

StartCrawler

package com.itheima.cralwer.crawler;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Spider;

@Component
public class StartCrawler {

    @Autowired
    private JdChromeDownloader downloader;
    @Autowired
    private JpaPipeline jpaPipeline;

    //声明搜索页的初始地址
    String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8" +
            "&suggest=1.his.0.0&wq=&pvid=72c93b8e6951419f83e22a7daee906d0";

    @Scheduled(cron = "0/5 * * * * *")
    public void run() {
        Spider.create(new JdPageProcessor())
                //.addUrl("https://www.jd.com/news.html?id=38673")
                .addUrl(url)
                //设置下载器
                .setDownloader(downloader)
                //设置使用jpa的输出
                .addPipeline(jpaPipeline)
                .run();
    }
}

你可能感兴趣的:(爬虫,webmejic)

matlab ICP配准高阶用法——统计每次迭代的配准误差并可视化点云侠 matlab点云工具箱 matlab 开发语言计算机视觉线性代数算法
目录一、概述二、代码实现三、结果展示1、原始点云2、配准结果3、配准误差本文由CSDN点云侠原创，原文链接。如果你不是在点云侠的博客中看到该文章，那么此处便是不要脸的爬虫。一、概述在进行论文写作时，需要做对比实验，来分析改进算法的性能，期间用到了迭代误差分布统计的比较分析，为直观表示配准误差，需要进行可视化
Python爬虫-批量爬取星巴克全国门店写python的鑫哥爬虫案例1000讲 python 爬虫星巴克门店数据目标城市全国
前言本文是该专栏的第22篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以星巴克为例，通过Python实现批量爬取目标城市的门店数据以及全国的门店数据。具体的详细思路以及代码实现逻辑，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cuc3RhcmJ1Y2tzLmNvbS5jbi8=目标：获取星巴克全国门店数据（包含具体的门店信息，经度和纬度坐标
强大的开源网络爬虫框架Scrapy的基本介绍(入门级) 铁松溜达py 爬虫 scrapy 前端测试工具 css
Scrapy是一个强大的开源网络爬虫框架，用于从网站上抓取数据。它基于Twisted异步网络框架，可以高效地处理并发请求和数据处理。以下是Scrapy框架的一些重要特点和功能：1.**灵活的架构**：-Scrapy提供了灵活的架构，可以轻松地定义和定制爬虫逻辑、数据提取规则和数据处理流程。2.**高性能**：-Scrapy使用Twisted异步网络框架，能够高效地处理并发请求和数据处理，从而实现高
【python】使用代理IP爬取猫眼电影专业评分数据码银网络 python 爬虫
前言我们为什么需要使用IP代理服务？在编写爬虫程序的过程中，IP封锁无疑是一个常见且棘手的问题。尽管网络上存在大量的免费IP代理网站，但其质量往往参差不齐，令人堪忧。许多代理IP的延迟过高，严重影响了爬虫的工作效率；更糟糕的是，其中不乏大量已经失效的代理IP，使用这些IP不仅无法绕过封锁，反而可能使爬虫陷入更深的困境。本篇文章中介绍一下如何使用Python的Requests库和BeautifulS
前端面试题 ===＞【HTML】禁止摆烂-才浅前端面试题前端 html
HTML面试题总结1.对HTML语义化的理解去掉或者丢失样式的时候能够让页面呈现出清晰的结构；代码结构清晰，方便团队的管理和维护，并且语义化更具有可读性，减少差异化；提升用户体验；例如：title、alt用于解释名词或者图片信息、label标签的活用有利于SEO优化，提升搜索引擎排名；和搜索引擎建立良好沟通，有助于爬虫抓取更多的有效信息；爬虫依赖于标签来确上下文和关键字的权重；方便其他设备的解析（
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
客户端渲染与服务端渲染（2）程序员榕叔 javascript react.js 前端
客户端渲染即普通的React项目渲染方式。客户端渲染流程：浏览器发送请求服务器返回HTML浏览器发送bundle.js请求服务器返回bundle.js浏览器执行bundle.js中的React代码CSR带来的问题：首屏加载时间过长SEO不友好因为时间在往返的几次网络请求中就耽搁了，而且因为CSR返回到页面的HTML中没有内容，就只有一个root空元素，页面内容是靠js渲染出来的，爬虫在读取网页时就
Python新手入门教程 | 如何用Python进行数据分析(超详细）田野猫咪 python 数据分析 windows
有小伙伴在学Python新手教程的时候说学Python比较复杂的地方就是资料太多了，比较复杂。很多网上的资料都是从语法教起的，花了很多时间还是云里雾里，摸不清方向。今天就给大家来捋一捋思路！帮助大家提高学习效率！三大板块：两组Python基础术语如何实现爬虫如何做数据分析1.两大Python基础术语A.变量和赋值Python可以直接定义变量名字并进行赋值的，例如我们写出a=4时，Python解释器
Python的进程、线程和协程 HelloFif python
多线程理解在Python中，多线程允许程序同时执行多个任务。他是通过创建线程并将任务分配给不同的线程来实现的，这有助于提高程序的执行效率，特别是在执行多个IO操作的时候，不过由于python的解释器锁（GIL），在执行cpu密集型任务的时候，多线程可能不会带来性能的提升应用场景多线程经常用于IO密集型的任务，比如网络请求，文件读写等，例如在开发一个网络爬虫的时候，可以使用多线程同时下载多个网页，这
Python招聘信息爬虫数据可视化分析大屏全屏系统(Django框架) 开题报告黄菊华老师毕设资料 python 开发语言
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
python从入门到精通（十五）：python爬虫完整学习大纲 HACKNOE python 爬虫学习
一、基础知识爬虫的基本概念和工作原理。HTTP协议和网页结构。Python爬虫开发的基础库，如requests、BeautifulSoup等。常见的反爬虫机制和应对方法。二、爬虫逆向的技术代理服务器和IP封锁突破。用户代理和请求头模拟。JavaScript解析和执行。验证码识别和破解。动态网页抓取和爬虫框架。三、数据抓取和处理数据抓取的技巧和策略。数据清洗和预处理。数据存储和数据库操作。数据分析和
Python爬虫打印状态码为521，返回数据为乱码？马龙强_ python 前端 javascript
爬虫代码：importrequestsheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/107.0.0.0Safari/537.36','Referer':'https://www1.rmfysszc.gov.cn/projects.shtml?d
python爬虫入门一点流水~ 爬虫 python 开发语言
一、首先需要了解爬虫的原理爬虫就是一个自动化数据采集工作，你只需要告诉它需要采取哪些数据，给它一个url，就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求，然后目标服务器返回响应结果，爬虫客户端收到响应并从中提取数据，再进行数据清洗、数据存储工作。二、爬虫的基本流程爬虫的基本流程与访问浏览器类似，就是建立一个http请求，当用户输入一个url之后，点击确认，客户
Python入门指南：从基础到应用袁公白 python 开发语言
引言：在这个数据驱动的时代，Python已经成为最受欢迎的编程语言之一。它以其简洁的语法、强大的库支持和广泛的应用领域而闻名。无论你是编程新手还是希望扩展你的技能集，学习Python都是一个明智的选择。在这篇博客中，我们将深入探讨Python的基础知诀，并通过实际代码示例来展示其在数据分析、网络爬虫和机器学习等领域的应用。I.Python基础知识A.数据类型Python提供了多种内置的数据类型，包
学习用网址自留 lsswear 学习学习
Swoole4文档PHP:PHP手册-Manualshell学习教程(超详细完整)_路人甲的博客-CSDN博客_shell学习Python基础-廖雪峰的官方网站Python爬虫100例教程导航帖（已完结）_梦想橡皮擦，专栏100例写作模式先行者-CSDN博客_python爬虫100例教程蓝桥杯算法全家桶（终极完结版）_JohnnyLin-CSDN博客_蓝桥杯算法Python爬虫100例教程导航帖（
Python经典基础习题（网络爬虫）是千可阿 Python python 爬虫
1.批量爬取yuan士信息，把每位yuan士的文字介绍保存到该yuan士名字为名的记事本文件中，照片保存到该院士名字为名的jpg文件中。程序代码：fromurllib.requestimporturlopenfromreimportfindallimportrequestsurl='https://www.cae.cn/cae/html/main/col48/column_48_1.html'wi
Python贵州贵阳二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师毕设资料贵州贵阳二手房源爬虫数据可视化
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
Python+docx2pdf批量将word转pdf 一晌小贪欢 Python自动化办公 python word pdf
目录专栏导读背景安装完整代码结尾专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>
scrapy 爬取当当网-图书排行榜-多条件爬取韩小禹
自学爬虫框架scrapy，爬取当当网-图书排行榜练手目标：爬取当当网-图书畅销榜中的图书数据，要求各种条件的数据都要有。dangdang.pngspider#-*-coding:utf-8-*-importscrapyfromdd_book.itemsimportDdBookItemfromseleniumimportwebdriverfromselenium.common.exceptionsi
axios Refused to set unsafe header has been blocked by CORS policy 未金涛 Python vue 前端爬虫
前言事情是这样的，我准备复制一个资源下载类的网站。第一步肯定是爬取目标网站的资源了。我在用python写爬虫的时候，当我提取完网页中的基础数据之后。就发现，目标网站后面大部分的数据都是通过有规律的api返回的json数据源。这个时候作为一个白飘党，我就在想能不能直接白嫖对面的api，直接拿来用呢？然后，在前端遇到了些问题，我感觉以我现在的技术水准无法解决。前端axios请求示例axios({met
PyCharm激活你尧大爷 PyCharm PyCharm
原文地址:https://blog.csdn.net/u014044812/article/details/78727496社区版和专业版区别:因公司的需求，需要做一个爬取最近上映的电影、列车号、航班号、机场、车站等信息，所以需要我做一个爬虫项目，当然java也可以做爬虫，但是还是没有python这样方便，所以也开始学习Python啦！！！欲善其事，必先利其器。这里我为大家提供了三种激活方式：授权
Python爬虫项目（附源码）70个Python爬虫练手实例！硬核Python 职业与发展 python 编程 python 爬虫开发语言
文章目录Python爬虫项目70例（一）：入门级Python爬虫项目70例（二）：pyspiderPython爬虫项目70例（三）：scrapyPython爬虫项目70例（四）：手机抓取相关Python爬虫项目70例（五）：爬虫进阶部分Python爬虫项目70例（六）：验证码识别技术Python爬虫项目70例（七）：反爬虫技术读者福利1、Python所有方向的学习路线2、Python课程视频3、精
向爬虫而生---Redis 探究篇8＜保障缓存和持久化数据一致性的研究与实现(初) `探索篇`＞晦涩男董先生 redis高级缓存爬虫 redis
前言:随着我们的生活越来越数字化，我们对数据的依赖变得无所不在。无论是在购物网站上浏览商品、在社交媒体上与朋友互动，还是在工作中处理大量的业务数据，数据都成了我们生活的重要组成部分。当我们使用应用程序或网站时，我们希望能够获得快速、即时的响应。这就是缓存出场的时候了！缓存就像是一位忠实的助手，聪明地将最常用的数据预先存储在内存中，以便随时供应。它就像快递员小张，把你最爱的披萨提前烤好，并保温在手袋
向爬虫而生---Redis 探究篇8＜保障缓存和持久化数据一致性的研究与实现(高) `讨论篇`＞晦涩男董先生 redis高级 redis mybatis
前言:继续上两篇:向爬虫而生---Redis探究篇8＜保障缓存和持久化数据一致性的研究与实现(初)`探索篇`＞-CSDN博客https://blog.csdn.net/m0_56758840/article/details/136574759本章:理解如何将理论知识应用于实际情况，并从中汲取经验和灵感。正文:实验与评估这部分我们将设计一个简单的代码案例以评估不同缓存双写一致性方案的性能和可靠性指标
蜗牛 llyuaner
图片发自App春日的清晨，空气中，已隐约可以闻到草木苏醒的味道。昨日的一场大雨，地上湿漉漉的，一只黑黑小小的蜗牛，正不紧不慢的往前爬。蜗牛，应该是唯一一种自己不会恶心害怕的软体爬虫了。记忆里，雨后的草丛和花坛里，总是能够找到它们的身影，一只只大大小小的蜗牛们，摇晃着它们的小触角，小心翼翼地顺着小树枝小树叶蜿蜒前行，遇到风吹草动就突然停住步伐，收回小触角，缩回小小的壳儿里。经常会捏着那小小的壳儿，摘
Python北京二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师毕设资料北京二手房源爬虫数据可视化
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
向爬虫而生---Redis 探究篇7＜Redis的Bigkey解决方案＞晦涩男董先生 redis高级 redis 数据库缓存
前言:继续上一篇向爬虫而生---Redis探究篇6＜Redis的Bigkey问题介绍＞-CSDN博客正文:BigKey问题的常用解决方案BigKey问题可能会对Redis的性能和可用性造成负面影响。为了解决这一问题，有几种常用的解决方案可供选择，包括数据拆分、分页处理、压缩/序列化和数据迁移。A.数据拆分解决BigKey问题的一种方法是将BigKey拆分为多个较小的键（key）或键值对（key-v
向爬虫而生---Redis 探究篇6＜Redis的Bigkey问题介绍＞晦涩男董先生 redis高级 redis 数据库缓存
前言:随着数据规模的增长，Redis的BigKey问题也开始显现。BigKey问题主要指的是存储了大量数据的key，这可能给Redis的性能和可用性带来负面影响。当一个key的数据量过大时，会占用宝贵的内存资源，拖慢Redis的响应速度。此外，存储和恢复这些BigKey也会变得困难和耗时，增加了维护的复杂性。在网络传输中，传输大量数据也会占用更多的带宽和增加延迟。解决Redis的BigKey问题需
为什么不用Word，非要用Markdown? 小阳阳兄
为什么不用Word，非要用Markdown?究竟什么是Md？Md的本质是什么Md与Word的区别常用的Md功能 CSDN官方帮助文档手把手教你怎么使用Md，还需要我再写一遍吗？官方文档太长啦，很多我们这种只做网络爬虫来支撑学术研究的金融狗根本用不上，下面我就边学边记录Md的常用功能。究竟什么是Md？师兄向我们介绍Md时，我是蒙的，啥？Md？是什么缩写吗？为什么有MSoffice不用，非要用这
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师毕设资料湖南长沙二手房源爬虫数据可视化
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数