黃昱儒

Java简易爬虫：抓取京东图书信息实战指南

本文还有配套的精品资源，点击获取

简介：本项目展示如何使用Java语言创建一个网络爬虫来抓取京东网站的图书信息。介绍使用Maven作为构建工具，HTTP客户端库发送请求，以及Jsoup或类似库解析HTML内容。讲解如何处理JavaScript动态加载内容，绕过反爬机制，并讨论数据存储和用户界面设计的策略。

1. Java网络爬虫项目概述

网络爬虫是一种自动获取网页内容的程序，它按照一定的规则，自动抓取互联网信息，为数据分析、搜索引擎索引等提供数据支持。在本项目中，我们将以京东图书信息作为爬取对象，使用Java语言开发网络爬虫，通过分析项目背景、目标和预期成果，为最终实现自动化获取和处理图书信息奠定基础。

1.1 网络爬虫的基本概念

网络爬虫，也被称为网络蜘蛛、网络机器人，在Web领域中常被简称为“爬虫”，是一种自动化抓取网页资源的程序或脚本。它通常按照一定的规则，自动访问互联网，并从网页中抓取所需的数据。

1.2 网络爬虫的工作原理

一个基本的网络爬虫工作流程包括：发送HTTP请求获取网页内容、解析网页以提取数据、存储提取的数据到数据库或文件中。更高级的爬虫可能会包含模拟登录、处理JavaScript动态内容等功能。

1.3 京东图书信息爬取项目概述

京东作为中国领先的电子商务公司之一，其图书信息的种类和数量庞大，是网络爬虫应用的理想场景。本项目的目标是通过编写Java网络爬虫，实现自动化、高效地从京东网站获取图书信息，包括但不限于书名、作者、价格、评分等数据，并将其保存到本地数据库或文件中，为后续的数据分析和商业决策提供支持。

通过理解本章内容，读者将对网络爬虫技术有一个宏观的把握，并了解该项目的具体应用场景和目标，为深入研究项目细节打下坚实基础。

2. Maven项目构建与依赖管理

2.1 Maven基础使用

2.1.1 Maven简介与安装配置

Maven是一个项目管理和构建自动化工具，主要服务于Java项目。它通过一个项目对象模型（POM）的概念来管理项目的构建、报告和文档，帮助开发者实现以下功能：

标准化构建流程 ：定义好一套标准化的构建流程，使得项目的构建方式能够统一。
依赖管理 ：自动管理项目的依赖，无需手动添加依赖的jar文件到项目中。
多模块构建 ：支持多模块项目，方便管理模块间的依赖关系。
插件机制 ：通过插件机制，可以方便地扩展Maven的功能。

安装Maven很简单，只需要下载相应的二进制包，解压到合适的目录，然后设置环境变量 M2_HOME ，将其值设置为Maven安装目录的路径，并将 ${M2_HOME}/bin 添加到系统环境变量 PATH 中。

export M2_HOME=/path/to/maven
export PATH=$PATH:${M2_HOME}/bin

接下来，可以通过运行 mvn -v 命令来验证Maven是否安装成功。

mvn -v

2.1.2 Maven的POM.xml文件结构与作用

Maven项目的核心是 pom.xml 文件，它包含了项目的配置信息，如：

项目基本信息 ：项目的名称、版本、开发者等。
依赖管理 ：项目所依赖的其他库。
构建配置 ：项目构建的具体配置，如源代码目录、输出目录等。
插件配置 ：项目使用的构建插件及其配置。
项目报告和文档 ：生成报告的配置和文档。

以下是一个简单的 pom.xml 文件示例：


    4.0.0
    com.example
    my-app
    1.0-SNAPSHOT

该文件定义了项目的 groupId 、 artifactId 和 version ，这是Maven中定义项目的三个基本坐标。

2.2 项目构建与目录结构设计

2.2.1 项目目录结构的优化与规范

为了遵循最佳实践，建议采用Maven标准的目录结构进行项目组织，这样可以使项目结构清晰，并便于其他开发者理解和使用。标准目录结构通常如下：

/my-app
  /src
    /main
      /java          # Java源代码文件
      /resources     # 配置文件和资源文件
    /test
      /java          # 测试源代码文件
      /resources     # 测试资源文件
  /target           # 编译输出目录
  pom.xml           # 项目对象模型文件

在 pom.xml 中，可以使用以下配置指定源代码和资源文件的位置：


  src/main/java
  
    
      src/main/resources
    
  
  src/test/java
  
    
      src/test/resources

2.2.2 源码管理与版本控制

为了确保源代码的版本控制和协作开发，推荐使用Git进行源码管理。Git支持分布式版本控制，可以有效地管理代码变更历史。

在项目根目录下执行以下命令初始化Git仓库：

git init
git add .
git commit -m "Initial commit"

之后可以将代码推送到远程仓库，例如GitHub：

git remote add origin [email protected]:username/my-app.git
git push -u origin master

2.3 第三方依赖管理

2.3.1 依赖的作用范围与生命周期管理

Maven允许你声明项目所需的第三方库依赖。依赖声明在 pom.xml 文件中，通过标签定义，每个依赖由标签定义。


  
    org.example
    dependency-a
    1.0.0
    
    compile

在上面的依赖中，标签定义了依赖的范围，主要作用范围有：

compile ：默认范围，编译时需要用到。
provided ：编译时需要，但运行时由JDK或容器提供。
runtime ：运行和测试时需要，编译时不需要。
test ：仅在测试时需要。

2.3.2 冲突解决与依赖排除策略

当项目中存在依赖冲突时，Maven会自动根据其依赖管理机制选择一个版本使用。但有时需要手动解决冲突或排除不需要的依赖，可以通过标签来排除传递依赖：


  org.example
  dependency-b
  1.0.0
  
    
      org.example
      transitive-dependency

通过合理配置依赖范围和排除策略，可以有效地管理项目中的依赖关系，确保构建的正确性和高效性。

第三章：HTTP请求发送与处理技术

3.1 HTTP协议与网络编程基础

3.1.1 HTTP协议的简介与请求响应模型

HTTP（超文本传输协议）是互联网上应用最为广泛的一种网络协议。它是一个无状态的协议，客户端与服务器之间的通信通过请求与响应模型完成。

请求：由客户端向服务器发出，包含请求方法、路径、协议版本、请求头和可选的请求数据。
响应：由服务器向客户端发出，包含状态码、响应头和响应数据。

一个典型的HTTP请求和响应模型如下：

请求示例：

GET /index.html HTTP/1.1
Host: www.example.com

响应示例：

HTTP/1.1 200 OK
Content-Type: text/html; charset=UTF-8
Content-Length: 1220


  
    An Example Page
  
  
    Hello World, this is a simple HTML document.

3.1.2 Java网络编程接口分析

Java提供了多种网络编程接口，如 java.net.URL 、 java.net.URLConnection 和 java.net.HttpURLConnection 。这些接口允许Java程序创建和操作URL，以及发送HTTP请求和接收HTTP响应。

示例代码展示如何使用 HttpURLConnection 发送一个简单的GET请求：

import java.net.HttpURLConnection;
import java.net.URL;

public class HttpExample {
    public static void main(String[] args) {
        try {
            URL url = new URL("http://www.example.com");
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestMethod("GET");
            connection.setRequestProperty("User-Agent", "Mozilla/5.0");
            // 读取响应内容
            int responseCode = connection.getResponseCode();
            System.out.println("Response Code : " + responseCode);
            // 这里可以继续读取响应流，处理响应数据
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3.2 HTTP请求的构建与发送

3.2.1 使用URL与URLConnection发送请求

java.net.URL 类提供了获取资源的方法，而 URLConnection 类用于打开与URL指向的资源的连接。通过这两者可以发送简单的HTTP请求。

URL url = new URL("http://example.com/api/data");
URLConnection urlConnection = url.openConnection();

3.2.2 高级HTTP客户端库的使用（如Apache HttpClient）

对于更复杂的HTTP交互，比如需要设置请求头、处理重定向、设置代理等，可以使用如Apache HttpClient这样的高级HTTP客户端库。

Apache HttpClient提供了更丰富的功能和更好的性能。以下是一个使用Apache HttpClient发送GET请求的示例：

import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class ApacheHttpClientExample {
    public static void main(String[] args) {
        HttpClient client = HttpClients.createDefault();
        HttpGet request = new HttpGet("http://example.com/api/data");
        try {
            HttpResponse response = client.execute(request);
            String responseString = EntityUtils.toString(response.getEntity());
            System.out.println("Response: " + responseString);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3.3 响应数据的解析与处理

3.3.1 响应状态码的判断与异常处理

当发送HTTP请求后，服务器会返回一个响应状态码。根据HTTP协议定义，状态码可以表示请求成功、客户端错误、服务器错误等。通过判断响应状态码，可以了解请求是否成功执行。

int responseCode = connection.getResponseCode();
if (responseCode == HttpURLConnection.HTTP_OK) {
    System.out.println("Request successful!");
} else {
    System.out.println("Request failed with status code: " + responseCode);
}

3.3.2 响应内容的解析与数据提取方法

通常，HTTP响应内容是HTML或JSON格式的数据。解析这些内容需要根据其格式选择合适的方法。

HTML内容 ：通常使用Jsoup库进行解析。
JSON内容 ：使用如Jackson或Gson这样的JSON处理库。

以下是一个使用Jsoup解析HTML响应内容的例子：

Document document = Jsoup.parse(responseString);
Elements elements = document.select("a[href]"); // 选择所有包含href属性的标签

通过解析HTML或JSON响应内容，可以提取出所需的信息，并进行进一步的处理或存储。

3. HTTP请求发送与处理技术

3.1 HTTP协议与网络编程基础

3.1.1 HTTP协议的简介与请求响应模型

超文本传输协议（HTTP）是互联网上应用最为广泛的网络协议，它规定了浏览器和服务器之间如何进行通信。HTTP协议是无状态的，即服务器不会记住之前的请求，每次请求都是独立的。它基于TCP/IP协议族，使用端口号80来传输数据。

HTTP请求包含请求行、请求头、空行和请求数据四个部分。其中，请求行包含请求方法、请求的URI和HTTP版本。请求方法常用的有GET、POST、PUT、DELETE等。

响应模型遵循请求/响应的交互模式，当浏览器发起一个HTTP请求后，服务器会返回一个HTTP响应。响应格式也由状态行、响应头、空行和响应体四个部分组成。状态行包括HTTP版本、状态码和状态码原因短语。

3.1.2 Java网络编程接口分析

Java提供了两种主要的网络编程接口：java.net.URL和java.net.Socket。URL类是用于处理URL的类，它允许你创建和处理URL。通过URL类的实例可以打开一个URL连接，并通过它读取数据。

import java.net.URL;
import java.net.URLConnection;
import java.io.BufferedReader;
import java.io.InputStreamReader;

public class SimpleHttpExample {
    public static void main(String[] args) {
        try {
            URL url = new URL("http://www.example.com");
            URLConnection connection = url.openConnection();
            BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
            String inputLine;
            StringBuffer content = new StringBuffer();
            while ((inputLine = in.readLine()) != null) {
                content.append(inputLine);
            }
            in.close();
            System.out.println(content.toString());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

以上代码展示了如何使用Java的URL类来发送GET请求并读取响应数据。此代码段首先创建一个URL对象，然后打开一个URL连接，并通过InputStreamReader和BufferedReader读取响应内容。

3.2 HTTP请求的构建与发送

3.2.1 使用URL与URLConnection发送请求

URL和URLConnection类是Java提供处理HTTP请求的基础工具。虽然它们操作简单，但功能有限，对于复杂的HTTP请求处理，它们可能不够用。例如，对于需要设置请求头、编码参数等高级功能时，可能需要使用更专业的HTTP客户端库。

import java.net.URL;
import java.net.URLConnection;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.net.HttpURLConnection;
import java.io.IOException;

public class HttpGetRequest {
    public static String.httpGet(String targetUrl) throws IOException {
        URL url = new URL(targetUrl);
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
        connection.setRequestMethod("GET");

        int responseCode = connection.getResponseCode();
        if (responseCode == HttpURLConnection.HTTP_OK) {
            BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
            String inputLine;
            StringBuffer response = new StringBuffer();
            while ((inputLine = in.readLine()) != null) {
                response.append(inputLine);
            }
            in.close();
            return response.toString();
        } else {
            return "GET request not worked";
        }
    }
}

3.2.2 高级HTTP客户端库的使用（如Apache HttpClient）

Apache HttpClient是一个功能强大的HTTP客户端库，它支持包括GET、POST在内的多种请求方式，并提供了对HTTP代理、Cookies、SSL连接等的支持。

import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class AdvancedHttpExample {
    public static void main(String[] args) {
        HttpClient httpClient = HttpClients.createDefault();
        HttpGet request = new HttpGet("http://www.example.com");
        try {
            HttpResponse response = httpClient.execute(request);
            if (response.getStatusLine().getStatusCode() == 200) {
                String responseBody = EntityUtils.toString(response.getEntity());
                System.out.println(responseBody);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

在此代码段中，使用了Apache HttpClient发送GET请求，并通过HttpResponse获取响应内容。Apache HttpClient在处理HTTP请求时更为灵活和强大。

3.3 响应数据的解析与处理

3.3.1 响应状态码的判断与异常处理

在处理HTTP响应时，理解状态码是非常重要的。每个状态码都传达了不同的信息，比如200代表请求成功，301和302则表示重定向，400和404分别表示客户端错误和资源未找到。

异常处理在发送HTTP请求时同样重要。网络请求可能会因为各种原因失败，比如网络问题、服务器错误等，良好的异常处理机制可以帮助我们更好地理解问题并采取相应的措施。

3.3.2 响应内容的解析与数据提取方法

响应内容的解析通常依赖于响应数据的格式。对于HTML内容，可以使用JSoup或其他HTML解析库来解析并提取数据。对于JSON或XML格式的数据，可以使用Jackson、Gson或JAXB等库来解析。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlDataExtraction {
    public static void main(String[] args) {
        String url = "http://www.example.com";
        try {
            Document doc = Jsoup.connect(url).get();
            Elements titles = doc.select("h1");
            for (Element title : titles) {
                System.out.println(title.text());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

在此示例中，使用Jsoup连接到一个网页，并选择所有的

标签，并打印出标签中的文本内容。通过这种方式，可以提取出网页中的标题信息。

4. HTML内容解析与数据提取

本章节我们将深入探讨如何解析HTML文档，并从中提取我们需要的数据。这一过程是网络爬虫的一个重要环节，它决定了我们爬取的信息的准确性和完整性。我们将逐步从HTML的基础结构开始，熟悉如何使用Jsoup库来解析HTML文档，并提供一些实际的数据提取示例。

4.1 HTML与DOM结构解析

4.1.1 HTML结构与DOM树的解析基础

HTML（HyperText Markup Language）是一种用于创建网页的标准标记语言。它由一系列标签（tag）构成，每个标签都有不同的含义和用途。为了使浏览器能够正确地解析HTML文档并将其显示为网页，浏览器会将HTML文档解析成一个DOM（Document Object Model）树结构。DOM树结构是节点的层级结构，每个节点代表HTML文档中的一个元素，如标签、属性、文本等。

理解DOM树的结构对于数据提取至关重要，因为它决定了如何定位页面中的元素。在DOM树中，我们可以通过元素的层级关系来访问特定的数据。例如，如果我们要获取页面中的所有书籍标题，我们可能需要找到包含这些标题的

标签，并遍历整个DOM树来提取这些标签的内容。

4.1.2 DOM树遍历与元素定位

在DOM树中遍历元素可以通过多种方法实现，例如使用Jsoup库时，我们可以利用其提供的选择器（Selector）来选择特定的元素。Jsoup支持CSS选择器和jQuery风格的选择器，这让我们能够以非常灵活的方式定位元素。

例如，如果我们想选择所有的

标题标签，我们可以使用以下的Jsoup选择器代码：

Elements titles = doc.select("h1");

此外，我们还可以使用更具体的选择器来定位具有特定类（class）或ID的元素，例如：

Elements specificTitles = doc.select(".title-class");
Elements uniqueTitle = doc.select("#unique-title-id");

在实际项目中，我们可能需要定位具有复杂结构的元素，例如嵌套在多个标签内部或者需要满足多个条件的元素。此时，选择器的使用会变得非常关键。

4.2 使用Jsoup解析HTML文档

4.2.1 Jsoup库的安装与基础使用

Jsoup是一个强大的库，它可以解析HTML文档，提供非常方便的API来进行元素选择和数据提取。首先，我们需要将Jsoup库添加到我们的项目中。如果你使用Maven，可以在 pom.xml 文件中添加如下依赖：


    org.jsoup
    jsoup
    1.13.1

在添加了依赖之后，我们可以通过以下代码加载和解析一个HTML文档：

String url = "http://example.com";
Document doc = Jsoup.connect(url).get();

上述代码首先通过 Jsoup.connect() 方法建立与目标URL的连接，然后通过调用 .get() 方法来发送请求并获取响应内容，最后将内容解析成一个 Document 对象。 Document 对象代表了整个HTML文档的DOM结构，我们可以对其进行遍历和查询。

4.2.2 复杂HTML结构的数据提取技巧

在解析HTML时，我们经常会遇到结构较为复杂的页面。Jsoup库提供的API能够帮助我们应对这种情况。例如，我们可以使用 select 方法来定位具有特定路径的元素：

Elements elements = doc.select("div.content > h2");

上例中， select 方法用于选择 div 标签中 class 属性为 content 的所有子元素 h2 。这在页面有明确的结构化标签时非常有用。

当面对具有重复属性或多个类的元素时，我们也可以使用包含选择器：

Elements articles = doc.select("article[data-type=blog]");

此外，我们还可以利用属性选择器来选取具有特定属性的元素：

Elements images = doc.select("img[src$=.png]");

此段代码会选择所有 src 属性以 .png 结尾的 img 元素。

在处理复杂结构时，一个非常有用的技巧是使用元素的兄弟（sibling）、父（parent）、子（child）等关系来定位元素。例如，获取第一个

标题下的第一个段落可以这样做：

Element firstH2 = doc.select("h2").first();
Elements firstParaUnderFirstH2 = firstH2.siblingElements().get(0).child(0).children();

在此例中， .siblingElements() 方法用于获取当前元素的同级元素， .child(0) 获取子元素列表中的第一个元素， .children() 获取该元素的所有子节点。

4.3 数据提取实例演练

4.3.1 静态页面的数据提取流程

在提取静态页面上的数据时，关键步骤通常包括以下几个阶段：

页面加载和解析：首先使用Jsoup或其他库加载页面，并解析为可操作的DOM结构。
元素定位：通过选择器定位到包含所需数据的HTML元素。
数据提取：从定位到的元素中提取所需的数据，这可能包括文本、属性值、链接等。
数据清洗：对提取的数据进行必要的清洗和格式化，以确保其准确性和可使用性。
数据存储：将清洗后的数据存储到适合的格式或数据库中。

下面是一个简单的静态页面数据提取的示例：

Document doc = Jsoup.connect("http://example.com").get();
Elements titles = doc.select("h1");
for (Element title : titles) {
    String text = title.text();
    // 这里可以进行数据存储等后续操作
}

4.3.2 动态加载内容的解析方法

动态内容是指那些并非直接存在于HTML源代码中，而是通过JavaScript在页面加载后动态生成的内容。使用Jsoup直接解析这种内容可能会遇到困难，因为Jsoup不执行JavaScript。此时，我们需要其他工具，如Selenium，来处理动态内容。

Selenium可以模拟浏览器行为，允许JavaScript运行并等待其完成，从而获取动态生成的内容。使用Selenium获取动态内容后，我们可以利用Jsoup进行解析和提取。

示例中，我们假设要爬取的页面使用JavaScript动态加载书籍信息：

// 使用Selenium打开页面并执行JavaScript
WebDriver driver = new ChromeDriver();
driver.get("http://example.com/dynamic-content");
Document doc = Jsoup.parse(driver.getPageSource());
Elements bookItems = doc.select(".book-item");
for (Element bookItem : bookItems) {
    // 提取书籍信息...
}
driver.quit();

在实际使用Selenium时，需要注意其与浏览器驱动的兼容性问题，并且执行效率可能低于直接使用Jsoup解析静态页面。

通过本章的介绍，读者应能够理解HTML内容解析与数据提取的基本原理和方法，并掌握如何在Java中使用Jsoup库来处理这些任务。在下一章中，我们将探讨如何处理JavaScript动态加载的数据，这对爬取现代网页尤为重要。

5. JavaScript动态加载数据处理

5.1 JavaScript动态内容的挑战

动态内容与传统爬虫的冲突

随着Web技术的快速发展，现代网页越来越多地利用JavaScript生成动态内容，这给传统的基于HTTP请求的爬虫带来巨大挑战。动态内容通常在客户端通过JavaScript执行后才会显示，而传统的爬虫无法模拟这一过程，因此难以获取到完整的页面数据。

动态加载机制的分析

例如，考虑京东图书信息的动态加载机制。当用户在京东网站上浏览图书时，很多信息如图书的详细评分、评论等，实际上是通过Ajax请求动态加载的。爬虫若无法处理这类动态加载，就无法完全抓取到这些信息。

5.1.1 案例分析：京东图书信息的动态加载机制

以京东图书页面为例，当页面加载完成后，JavaScript代码会异步发起Ajax请求，向服务器获取图书的详细信息，并将其渲染到页面上。这个过程对于用户是透明的，但对于爬虫来说，不模拟这一过程就无法获取到这些信息。

5.2 Selenium工具的使用

Selenium的基本概念与安装

为了解决JavaScript动态内容的问题，我们可以利用Selenium这一强大的工具。Selenium是一个自动化测试工具，可以模拟真实用户在浏览器中的操作行为，包括执行JavaScript代码。

5.2.1 安装与配置

在开始使用Selenium之前，需要先安装Selenium库及其对应的WebDriver。例如，在Java中安装Selenium可以通过Maven管理依赖进行：



    org.seleniumhq.selenium
    selenium-java
    3.141.59

接下来是WebDriver的下载，根据所使用的浏览器进行选择。以Chrome为例，可以下载 chromedriver 并放置到系统PATH中或指定路径。

5.2.2 使用Selenium模拟浏览器操作

安装并配置好Selenium后，我们可以编写代码模拟浏览器操作，如打开网页、滚动页面、点击按钮、填写表单等。

WebDriver driver = new ChromeDriver();
driver.get("https://www.jd.com");
// 其他模拟操作...

5.3 Ajax数据的拦截与解析

5.3.1 Ajax请求分析与拦截技术

使用Selenium可以很好地处理动态内容，但是对于Ajax请求的解析可能还需要进一步的处理。一种有效的方式是利用浏览器开发者工具监控网络请求，分析Ajax请求的URL、请求参数、请求方法等信息。

flowchart LR
    A[浏览器访问页面] --> B[JavaScript执行]
    B --> C[发起Ajax请求]
    C --> D[服务器响应]
    D --> E[渲染页面内容]

5.3.2 从Ajax响应中提取数据

一旦知道如何构造Ajax请求，就可以使用Java代码发起请求，从响应中直接提取数据，而不必依赖Selenium。这通常通过HTTP客户端库如 HttpClient 实现。

// 使用HttpClient发起Ajax请求示例
CloseableHttpClient httpClient = HttpClients.createDefault();
HttpGet request = new HttpGet("https://www.jd.com/ajax/book?method=detail");
HttpResponse response = httpClient.execute(request);
// 解析响应体，提取数据...

通过上述技术的结合使用，可以有效地处理JavaScript动态加载的数据，解决现代网页爬虫面临的问题。

6. 反爬策略与应对措施

6.1 常见的反爬虫技术

反爬虫技术是网站为了防止自动化工具对网站的过度访问，确保网站资源合理使用而采取的一些技术手段。常见的反爬技术包括但不限于用户代理（User-Agent）检查、Cookies跟踪、验证码和登录验证等。

6.1.1 用户代理（User-Agent）检查

用户代理（User-Agent）是浏览器用来告诉服务器，你正在使用的是什么类型的浏览器，操作系统等信息。通过检查User-Agent，网站可以轻易区分出是普通用户还是爬虫程序。

// 示例代码：获取User-Agent字符串
public static String getUserAgent() {
    return "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3";
}

6.1.2 验证码、登录验证等高级反爬机制

验证码、登录验证是较为复杂的反爬机制，需要模拟用户行为来解决。使用Selenium等工具可以帮助我们模拟浏览器操作来完成登录验证。

6.2 反爬策略的应对措施

在面对反爬虫技术时，开发者需要采取一些应对策略，以便能够正常爬取网站数据。

6.2.1 IP代理池的构建与使用

通过搭建IP代理池，我们可以模拟不同的IP地址去访问网站，有效规避IP封禁问题。

// 示例代码：使用代理池
Proxy[] proxies = ProxyUtils.getAllProxies();
for (Proxy proxy : proxies) {
    // 使用proxy进行网络请求...
}

6.2.2 模拟真实用户行为的策略

通过设置合理的请求间隔、随机化User-Agent字符串、添加必要的Cookies等措施，可以模拟真实用户的行为。

6.3 爬虫法律与伦理问题

在开发和运行爬虫的过程中，遵守法律和道德规范是非常重要的。开发者需要了解和尊重相关法律法规。

6.3.1 爬虫开发的法律边界

了解并尊重网站的Robots协议，避免未经授权访问和爬取数据。

6.3.2 遵守网站Robots协议的重要性

Robots协议是网站与爬虫程序之间的“君子协定”。在爬取数据之前，一定要检查并遵循目标网站的Robots.txt文件。

通过以上措施，可以有效地处理反爬策略，但必须牢记的是，在任何情况下都应尊重网站的访问规则和法律法规，确保爬虫行为合法、合规。

本文还有配套的精品资源，点击获取

你可能感兴趣的:(Java简易爬虫：抓取京东图书信息实战指南)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
《实际生活是我们的指南针》——教育中寻找曙光托克托126何芳
陶行知先生的文章相对《致青年教师》比较难理解，但是他热爱学生,在书中处处能感受到。在《实际生活是我们的指南针》文中他说道:“我虽觉得我有好多地方可以帮助诸位,但指志针确是有些不敢当。我和诸位同是在乡村里摸路的人。我们的真正指南针只是实际生活。”这些话不仅使人感到他非常谦虛,既不夸大自己的作用也不轻视自己的作用。图片发自App我们的真正指南针只是实际生活。实际生活向我们供给无穷的问题,要求不断的解决
高省邀请码哪个级别最高?高省原始高级邀请码500888 凌风导师
高省是杭州长孚科技有限公司开辟的一个项目（高省APP），已获数千万投资，主打外交电商+新零售，提供淘宝好省京东等主流电商途径的大额优惠券（直接在淘宝等途径购买是没有该优惠券的）。用户们可以利用这些软件享受折扣买东西优惠，一起来看看购物省钱app网上买东西省钱的软件有哪些吧！网购省钱软件靠谱吗包围淘宝等途径产品的左右，也便是你可以大概在高省买你的确想买的任何产品，并且享受额定优惠，优惠力度为-（大部
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
周日随笔梅子Mey
今天心情有点烦燥，但是在看到每天读点故事弹出信息之后，心情瞬间阳光起来。坚持的路上，就是这样，没有容易。你随时可以说暂停，或者放弃。但是，就意味着你看不到未来的果实。但是，坚持的话，真的很难。这次，我想坚持下来。我希望我能在一件事上坚持半年到一年。这次是写作，我希望我能持续地输入和输出。因为这是我的热爱，因为这是我想做一辈子的事，因为，这同样也是有市场的领域。只是，我不够坚持，就看不到成果。我的文
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
Matrix-Breakout 2 Morpheus靶场解题过程
信息收集目标探测靶机目标很明显就是61.139.2.141了扫描开放端口发现22、80、81访问端口主机访问80翻译一下，并没有发现什么审查源代码发现里面有一张图片，下载下来看看是否有图片的隐写wgethttp://61.139.2.141/trinity.jpegstegoveritas-itrinity.jpeg-o/home/kali/Desktop/11分解后发现什么都没有，里面的keep
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
云集怎么赚钱？云集APP分享购物赚钱攻略古楼
云集app怎么赚钱?云集app作为是一个全面的电商导购平台,提供诸如淘宝、京东、拼多多等各大平台的优惠券,其他同类型的导购平台相比,更加的全面,线上线下全面出击。如果你想通过云集赚钱,那你可以把这款APP推荐给淘宝(10亿用户)、拼多多(3亿用户)、京东(1亿用户)使用,那你能赚到他们购物返佣,也可以自己购物领优惠券能省不少钱,以后还有更多的商家与粉象合作,这么免费的App人人都需要,很好推广。至
北斗短报文兜底、5G-A增强：AORO P1100三防平板构建应急通信网络
公网中断的灾区现场，泥石流阻断了最后一条光缆。一支救援队却在废墟间有序穿行，队长手中的三防平板正闪烁着北斗卫星信号，定位坐标与伤亡信息化作一行行短报文，穿透通信孤岛直达指挥中心。这是AOROP1100三防平板搭载的北斗短报文功能在应急救援中的真实场景，更代表了工业移动终端在极端环境下的能力跃迁。AOROP1100三防平板作为遨游通讯2025年推出的旗舰三防设备，AOROP1100三防平板的技术基底
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
02-Breakout靶机攻略 ZLlllllll0 02-Breakout靶机
第一步搭建靶机下载地址：https://download.vulnhub.com/empire/02-Breakout.zip下载好了之后直接用VM打开然后右击虚拟机，把网络连接改成nat模式第二步，信息收集然后开启虚拟机，左上角编辑，虚拟网络编辑器里面看一下靶机是哪个网段。打开kali用nmap扫一下的这个网段的存活主机，也就是扫除这个靶机的具体ip地址nmap192.168.109.1/24扫
面对冷漠的成人世界，愿你做一个内心强大的人小西夜语
—在漫漫深夜里，遇见最真实的你—一个人的强大，无外乎是内心的强大，说到做一个内心强大的人，小西还是不得不提到丰子恺的漫画《无宠不惊过一生》。漫画中，还是小西喜欢的那一句——“不乱于心，不困于情。不畏将来，不念过往。如此，安好。”想来要成为一个内心强大的人，应该就是要做到这样吧！不乱于心，终日面对各种事务，接收各种信息，能够不被扰乱内心，依然坚定自己的想法，这就是内心强大。如今，我们都谈焦虑，因为总
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb