静谧空间

Jsoup与HtmlUnit：两大Java爬虫工具对比解析

Jsoup：HTML解析利器

定位：专注HTML解析的轻量级库（也就是快，但动态页面无法抓取）
核心能力：
- DOM树解析与CSS选择器查询
- HTML净化与格式化
- 支持元素遍历与属性提取

应用场景：静态页面数据抽取、内容清洗

public static Document getJsoupDoc(String url, Integer frequency, Integer connectTimeout) {
        Document document = null;
        try {
            if(connectTimeout==null){
                document = Jsoup.connect(url).ignoreContentType(true).get();
            }else{
                document = Jsoup.connect(url).ignoreContentType(true).maxBodySize(0).timeout(connectTimeout).get();
            }

        } catch (Exception e) {
            document = null;
        }
        if (document == null && frequency < 3) {
            frequency = frequency + 1;
            try {
                Thread.sleep(100);
            } catch (InterruptedException e) {
                log.error("休眠异常：" + e.getMessage(), e);
            }
            document = getJsoupDoc(url, frequency, connectTimeout);
        }
        return initUrl(url,document);
    }

HtmlUnit：无头浏览器引擎

定位：支持JavaScript的全功能浏览器模拟器（js动态数据的加载）
核心能力：
- 执行复杂AJAX请求
- 模拟用户交互（点击/表单提交）
- 支持Cookie管理和页面跳转

典型场景：动态网页抓取、自动化测试

/**
     * @param url      爬虫链接
     * @param waitTime 等待时间
     * @return
     */
    public static Document getDynamicCrawlersDocument(String url, Integer waitTime, boolean javaScriptEnabled) {
        Document document = null;

        try (WebClient browser = new WebClient()) {
            //解决动态页面抓取不到信息问题
            browser.getOptions().setCssEnabled(false);
            browser.getOptions().setJavaScriptEnabled(javaScriptEnabled);
            browser.getOptions().setThrowExceptionOnScriptError(false);
            browser.getOptions().setUseInsecureSSL(true);
            // 设置自定义的错误处理类
            browser.setJavaScriptErrorListener(new MyJSErrorListener());

            HtmlPage page = null;
            page = browser.getPage(url);
            // 等待后台脚本执行时间
            browser.waitForBackgroundJavaScript(waitTime);

            String pageAsXml = page.asXml();
            document = Jsoup.parse(pageAsXml.replaceAll("\\<\\?xml.*?\\?>", ""));
            document.setBaseUri(url);
        } catch (ScriptException e) {
            log.error("getDynamicCrawlersDocument页面:{}     JavaScript 异常：{}", url, e.getMessage());
            return initUrl(url,document);
        } catch (UnknownHostException e) {
            log.error("getDynamicCrawlersDocument页面:{}     无法解析或找到指定的主机名：{}", url, e.getMessage());
            return initUrl(url,document);
        } catch (FailingHttpStatusCodeException e) {
            log.error("getDynamicCrawlersDocument页面:{}     HTTP 状态异常：{}", url, e.getStatusCode());
            return initUrl(url,document);
        } catch (Exception e) {
            log.error("getDynamicCrawlersDocument页面:{}    获取页面异常：{}", url, e.getMessage());
            return initUrl(url,document);
        }
        return initUrl(url,document);
    }

核心优势对比

特性	Jsoup	HtmlUnit
解析速度	⚡️ 毫秒级响应	⏳ 需加载完整页面资源
JS支持	❌ 不执行任何脚本	✅ 完整JavaScript引擎
内存占用	10MB级内存消耗	100MB+内存需求
学习曲线	半天掌握核心API	需理解浏览器事件模型
反爬绕过	❌ 基础Header支持	✅ 模拟真实浏览器指纹

实战场景选择指南

▶ 首选Jsoup的情况
- 目标数据存在于初始HTML中(静态页面)
- 需要高频抓取（>1000次/分钟）
- 服务器资源受限（云函数/边缘计算）
- 快速原型开发需求
▶ 必须HtmlUnit的场景
- 页面依赖AJAX动态加载（js数据请求）
- 需要登录Cookie保持
- 涉及表单交互操作
- 需解析Shadow DOM内容

结语

Jsoup与HtmlUnit代表了Java爬虫的两个技术维度：极致效率与完整模拟。理解二者的设计哲学，根据实际场景灵活选用甚至组合使用（如用HtmlUnit获取初始页面后用Jsoup解析），往往能取得最佳效果。在日益复杂的反爬机制下，合理选择工具将成为数据抓取成功的关键。

完整代码工具类

package com.zzkj.zei.utils;

import cn.hutool.http.HttpRequest;
import cn.hutool.http.HttpResponse;
import com.alibaba.fastjson.JSON;
import com.zzkj.zei.pojo.system.SysSite;
import com.zzkj.zei.utils.spider.SpiderUtils;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.lang3.ObjectUtils;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.entity.StringEntity;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.htmlunit.BrowserVersion;
import org.htmlunit.FailingHttpStatusCodeException;
import org.htmlunit.ScriptException;
import org.htmlunit.WebClient;
import org.htmlunit.html.HtmlAnchor;
import org.htmlunit.html.HtmlPage;
import org.htmlunit.javascript.DefaultJavaScriptErrorListener;
import org.jetbrains.annotations.NotNull;
import org.jsoup.HttpStatusException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.*;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * FileName: JsoupHtmlUintUtils
 * Author: wzk
 * Date:2024/11/8 9:32
 */
@Slf4j
public class JsoupHtmlUintUtils {

    /**
     * 动态检测
     *
     * @param url 爬虫链接
     * @return
     */
    public static Document getDynamicCrawlersDocument(String url) {
        Document document = null;
        //解决动态页面抓取不到信息问题
        WebClient browser = new WebClient(BrowserVersion.CHROME);
        browser.getOptions().setCssEnabled(false);
        browser.getOptions().setJavaScriptEnabled(false);
        browser.getOptions().setThrowExceptionOnScriptError(false);
        // 允许使用不安全的 SSL
        browser.getOptions().setUseInsecureSSL(true);
        // 设置自定义的错误处理类
        browser.setJavaScriptErrorListener(new MyJSErrorListener());
        HtmlPage page = null;
        try {
            page = browser.getPage(url);
            // 等待后台脚本执行时间
            browser.waitForBackgroundJavaScript(1000);
            String pageAsXml = page.asXml();
            document = Jsoup.parse(pageAsXml);
        } catch (ScriptException e) {
            log.info("页面:{}     JavaScript 异常：{}", url, e.getMessage());
        } catch (FailingHttpStatusCodeException e) {
            log.info("页面:{}     HTTP 状态异常：{}", url, e.getStatusCode());
        } catch (UnknownHostException e) {
            log.info("页面:{}     无法解析或找到指定的主机名：{}", url, e.getMessage());
        } catch (Exception e) {
            log.error("页面:{}    获取页面异常：{}", url, e.getMessage());
        }
        return initUrl(url,document);
    }

    /**
     * @param url      爬虫链接
     * @param waitTime 等待时间
     * @return
     */
    public static Document getDynamicCrawlersDocument(String url, Integer waitTime, boolean javaScriptEnabled) {
        Document document = null;

        try (WebClient browser = new WebClient()) {
            //解决动态页面抓取不到信息问题
            browser.getOptions().setCssEnabled(false);
            browser.getOptions().setJavaScriptEnabled(javaScriptEnabled);
            browser.getOptions().setThrowExceptionOnScriptError(false);
            browser.getOptions().setUseInsecureSSL(true);
            // 设置自定义的错误处理类
            browser.setJavaScriptErrorListener(new MyJSErrorListener());

            HtmlPage page = null;
            page = browser.getPage(url);
            // 等待后台脚本执行时间
            browser.waitForBackgroundJavaScript(waitTime);

            String pageAsXml = page.asXml();
            document = Jsoup.parse(pageAsXml.replaceAll("\\<\\?xml.*?\\?>", ""));
            document.setBaseUri(url);
        } catch (ScriptException e) {
            log.error("getDynamicCrawlersDocument页面:{}     JavaScript 异常：{}", url, e.getMessage());
            return initUrl(url,document);
        } catch (UnknownHostException e) {
            log.error("getDynamicCrawlersDocument页面:{}     无法解析或找到指定的主机名：{}", url, e.getMessage());
            return initUrl(url,document);
        } catch (FailingHttpStatusCodeException e) {
            log.error("getDynamicCrawlersDocument页面:{}     HTTP 状态异常：{}", url, e.getStatusCode());
            return initUrl(url,document);
        } catch (Exception e) {
            log.error("getDynamicCrawlersDocument页面:{}    获取页面异常：{}", url, e.getMessage());
            return initUrl(url,document);
        }
        return initUrl(url,document);
    }

    private static List getDynamicCrawlersDocument(String url, Integer waitTime) {
        List documents = new ArrayList<>();
        HtmlPage oldPage = null;
        try (WebClient browser = new WebClient()) {
            //解决动态页面抓取不到信息问题
            browser.getOptions().setCssEnabled(false);
            browser.getOptions().setJavaScriptEnabled(true);
            browser.getOptions().setThrowExceptionOnScriptError(false);
            browser.getOptions().setUseInsecureSSL(true);
            // 设置自定义的错误处理类
            browser.setJavaScriptErrorListener(new MyJSErrorListener());

            HtmlPage page = null;
            page = browser.getPage(url);
            oldPage = page;
            // 等待后台脚本执行时间
            browser.waitForBackgroundJavaScript(waitTime);
            Document document;
            document = getDocuments(url, page);
            documents.add(document);
            while (true) {
                HtmlAnchor nextButton = page.getFirstByXPath("//a[contains(text(), '下一页')]");
                if (nextButton == null || nextButton.getAttribute("class").contains("disabled")) {
                    break; // No more pages
                }
                page = nextButton.click();
                browser.waitForBackgroundJavaScript(waitTime);
                if (page.equals(oldPage) && !page.getUrl().toString().equals(url)) {
                    break;
                }
                oldPage = page;
                document = getDocuments(url, page);
                documents.add(document);
            }

        } catch (ScriptException e) {
            log.error("getDynamicCrawlersDocument页面:{}     JavaScript 异常：{}", url, e.getMessage());
        } catch (UnknownHostException e) {
            log.error("getDynamicCrawlersDocument页面:{}     无法解析或找到指定的主机名：{}", url, e.getMessage());
        } catch (FailingHttpStatusCodeException e) {
            log.error("getDynamicCrawlersDocument页面:{}     HTTP 状态异常：{}", url, e.getStatusCode());
        } catch (Exception e) {
            log.error("getDynamicCrawlersDocument页面:{}    获取页面异常：{}", url, e.getMessage());
        }
        return documents;
    }

    private static @NotNull Document getDocuments(String url, HtmlPage page) {
        String pageAsXml = page.asXml();
        Document document = Jsoup.parse(pageAsXml.replaceAll("\\<\\?xml.*?\\?>", ""));
        document.setBaseUri(url);
        return initUrl(url,document);
    }

    public static List getDocuments(String url, Integer isDynamic) {
        List list;
        if (isDynamic == 1) {
            list = getDynamicCrawlersDocument(url, 1000);
        } else {
            list = getJsoupDoc(url);
        }
        return list;
    }

    public static Document getDocument(String url, Integer isDynamic) {
        Document document;
        if (isDynamic == 1) {
            document = getDynamicCrawlersDocument(url, 1000, true);
        } else {
            document = getJsoupDoc(url, 1, null);
        }
        return initUrl(url,document);
    }

    /**
     * @param url 爬虫链接
     * @return
     */
    public static Document getJsoupDoc(String url, Integer frequency, Integer connectTimeout) {
        Document document = null;
        try {
            if(connectTimeout==null){
                document = Jsoup.connect(url).ignoreContentType(true).get();
            }else{
                document = Jsoup.connect(url).ignoreContentType(true).maxBodySize(0).timeout(connectTimeout).get();
            }

        } catch (Exception e) {
            document = null;
        }
        if (document == null && frequency < 3) {
            frequency = frequency + 1;
            try {
                Thread.sleep(100);
            } catch (InterruptedException e) {
                log.error("休眠异常：" + e.getMessage(), e);
            }
            document = getJsoupDoc(url, frequency, connectTimeout);
        }
        return initUrl(url,document);
    }

    private static List getJsoupDoc(String url) {
        List list = new ArrayList<>();
        Document document = getJsoupDoc(url, 1, null);
        list.add(document);
        return list;
    }

    public static String getRedirectUrl(String url) {
        log.info("getRedirectUrl-------------------url---------------" + url);
        String redirectUrl = "";
        //设置模拟浏览器
        try (WebClient webClient = new WebClient(BrowserVersion.CHROME)) {
            //是否等待页面javaScrpit加载
            webClient.getOptions().setJavaScriptEnabled(true);
            webClient.getOptions().setRedirectEnabled(true);
            // js运行错误时，是否抛出异常
            webClient.getOptions().setThrowExceptionOnScriptError(false);
            webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
            // 设置连接超时时间
            webClient.getOptions().setTimeout(200);
            // HtmlUnit
            redirectUrl = webClient.getPage(url).getUrl().toString();
        } catch (FailingHttpStatusCodeException | IOException e) {
            log.error(url + "获取重定向网站失败1:" + e.getMessage(), e);
        } catch (Exception e) {
            log.error(url + "获取重定向网站失败2:" + e.getMessage(), e);
        }
        return redirectUrl;
    }

    /**
     * 获取重定向url
     *
     * @param hrefUrl     链接地址
     * @param metaTagsUrl 元标签地址
     * @param sysSite     站点实体
     * @return
     */
    public static String getRedirectUrl(String hrefUrl, String metaTagsUrl, SysSite sysSite) {
        String redirectUrl = "";
        try {
            if (metaTagsUrl.startsWith("./") && SpiderUtils.isNode(hrefUrl, sysSite)) {
                if (hrefUrl.endsWith("/")) {
                    redirectUrl = hrefUrl + metaTagsUrl.substring(2);
                } else {
                    redirectUrl = hrefUrl + metaTagsUrl.substring(1);
                }
            } else if (metaTagsUrl.startsWith("./") && hrefUrl.endsWith(".html")) {
                hrefUrl = hrefUrl.substring(0, hrefUrl.lastIndexOf("/"));
                metaTagsUrl = metaTagsUrl.substring(1);
                redirectUrl = hrefUrl + metaTagsUrl;
            } else if ("../".equals(metaTagsUrl) && SpiderUtils.isNode(hrefUrl, sysSite)) {
                if (hrefUrl.endsWith("/")) {
                    hrefUrl = hrefUrl.substring(0, hrefUrl.length() - 1);
                }
                redirectUrl = hrefUrl.substring(0, hrefUrl.lastIndexOf('/'));
            } else if ("/".equals(metaTagsUrl)) {
                redirectUrl = sysSite.getSiteDomain();
            } else {
                //SpiderUtils.saveLogText("需要获取重定向以后的url--------------------hrefUrl："+hrefUrl+"--------metaTagsUrl："+metaTagsUrl);
                redirectUrl = JsoupHtmlUintUtils.getRedirectUrl(hrefUrl);
                //SpiderUtils.saveLogText("需要获取重定向以后的url-----------返回结果---------redirectUrl："+redirectUrl);
            }

        } catch (Exception e) {
            log.error("获取的url失败：" + e.getMessage(), e);
        }
        return redirectUrl;
    }

    /**
     * 获取原标签的url
     *
     * @param refreshMeta
     * @return
     */
    public static String getMetaTagsUrl(Element refreshMeta) {
        String refreshUrl = "";
        try {
            if (refreshMeta != null) {
                String patternString = "http-equiv\\s*=\\s*\"?Refresh\"?\\s*[\\s;]*content\\s*=\\s*\"?(\\d+);\\s*url\\s*=\\s*(\"?)(.*?)\\2\"";
                Pattern pattern = Pattern.compile(patternString, Pattern.CASE_INSENSITIVE);
                Matcher matcher = pattern.matcher(refreshMeta.html());

                if (matcher.find()) {
                    refreshUrl = matcher.group(3);
                }
            }
        } catch (Exception e) {
            log.error("获取元标签的url失败：" + e.getMessage(), e);
        }
        return refreshUrl;
    }

    /**
     * 获取链接的状态码
     *
     * @param url 爬虫链接
     * @return
     */
    public static Integer getUrlResponseCode(String url, Integer frequency) {
        int statusCode;
        try (HttpResponse response = HttpRequest.head(url).setConnectionTimeout(1000).execute()) {
            //使用hutool方法获取状态码
            statusCode = response.getStatus();
            if (statusCode >= 400 && frequency < 3) {
                frequency = frequency + 1;
                try {
                    Thread.sleep(200);
                } catch (InterruptedException e) {
                    log.error("休眠异常：" + e.getMessage(), e);
                }
                statusCode = getUrlResponseCode(url, frequency);
            }
        } catch (Exception e) {
            log.error(url+"-----获取url的状态码失败：" + e.getMessage(), e);
            statusCode = 500;
        }
        return statusCode;
    }

    /**
     * 静态爬虫
     *
     * @param url
     * @return
     */
    private Document getStaticCrawlers(String url) {
        Document document = null;
        try {
            document = Jsoup.connect(url).timeout(5000).get();
        } catch (HttpStatusException e) {
            // 后台异常处理
            if ((e.getStatusCode() + "").startsWith("5")) {
                try {
                    Thread.sleep(2000); // 睡眠2秒
                    document = Jsoup.connect(url).timeout(5000).get();
                } catch (IOException ex) {
                    ex.getMessage();
                } catch (InterruptedException ex) {
                    throw new RuntimeException(ex);
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return initUrl(url,document);
    }

    private Document getStaticCrawlers(String url, Integer waitTime) {
        Document document = null;
        try {
            document = Jsoup.connect(url).timeout(waitTime).get();
        } catch (HttpStatusException e) {
            // 后台异常处理
            if ((e.getStatusCode() + "").startsWith("5")) {
                try {
                    Thread.sleep(2000); // 睡眠2秒
                    document = Jsoup.connect(url).timeout(waitTime).get();
                } catch (IOException ex) {
                    ex.getMessage();
                } catch (InterruptedException ex) {
                    throw new RuntimeException(ex);
                }
            }
        } catch (Exception e) {

        }
        return initUrl(url,document);
    }

    /**
     * 初始化Document中的相对路径为绝对路径
     * @param sourceUrl 基准URL，用于解析相对路径
     * @param document Jsoup解析的Document对象
     * @return 处理后的Document
     * @throws IllegalArgumentException 如果基准URL无效
     */
    public static Document initUrl(String sourceUrl, Document document) {
        try{
            if (ObjectUtils.isNotEmpty(document)){
                URI baseUri;
                try {
                    baseUri = new URI(sourceUrl);
                } catch (URISyntaxException e) {
                    throw new IllegalArgumentException("链接处理异常: " + sourceUrl, e);
                }

                Elements aList = document.select("a");
                for (Element element : aList) {
                    String href = element.attr("href");
                    // 跳过空或无效的href属性
                    if (href == null || href.isEmpty()) {
                        continue;
                    }
                    //是javascript:void(0)类似这样的非法链接
                    if (SpiderUtils.filterJavaScript(href)) {
                        continue;
                    }
                    //不符合url规则
                    if (SpiderUtils.illegalUrl(href)) {
                        continue;
                    }

                    try {
                        URI resolvedUri = baseUri.resolve(href);
                        element.attr("href", resolvedUri.toString());
                    } catch (IllegalArgumentException e) {
                        // 可选：记录解析失败的情况
                        log.error("无法解析链接 '" + href + "': " + e.getMessage());
                    }
                }
            }
        } catch (Exception e){
            log.info("document初始化链接异常：",e.getMessage(),e);
        }
        return document;
    }

    static class MyJSErrorListener extends DefaultJavaScriptErrorListener {
        @Override
        public void scriptException(HtmlPage page, ScriptException scriptException) {
        }

        @Override
        public void timeoutError(HtmlPage page, long allowedTime, long executionTime) {
        }

        @Override
        public void malformedScriptURL(HtmlPage page, String url, MalformedURLException malformedURLException) {

        }

        @Override
        public void loadScriptError(HtmlPage page, URL scriptUrl, Exception exception) {

        }

        @Override
        public void warn(String message, String sourceName, int line, String lineSource, int lineOffset) {

        }
    }

}

移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Java8 Stream流的sorted()的排序【正序、倒序、多字段排序】 Tony666688888 java windows 开发语言
针对集合排序，java8可以用Stream流的sorted()进行排序。示例Bean以下我们会使用这个Bean来做示例。publicclassOrder{privateStringweight;privateDoubleprice;privateStringdateStr;//忽略getter、setter、构造方法、toString}字段排序首先是比较器Comparator，形式如下：Compa
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
java实习生40多天有感别拿爱情当饭吃
从5月15日开始，我开始第一步步入社会，我今年大三，在一家上市互联网公司做一名实习生，主要做java后端开发。开始的时候，觉得公司的环境挺不错的，不过因为公司在CBD，所以隔壁的午饭和晚饭都要20+RMB，而且还吃不饱，这让我感觉挺郁闷的。一到下午，我就会犯困（因为饿）。因此，我又不得不买一些干粮在公司屯着。关于技术，有一个比较大的项目在需求调研当中，我们做实习生，就是辅助项目经理，测试功能，并且
大学生入门：初识方法及其易踩坑的点
在java学习过程中，我们不难发现有很多重复使用的功能代码块，每次使用如果都要重新写一遍，岂不是很麻烦，就算是“cv”大法，感觉也不是很方便，那么，有什么办法可以解决这个问题呢？方法！java中，一段可重用的，用于执行特定功能的代码块叫做方法，它可以接收参数、返回结果，并且可以被多次使用。一、方法的基本结构[修饰符]返回值类型方法名([参数列表])[throws异常类型]{//方法体}[throw
[Ljava.lang.Object; cannot be cast to [Ljava.lang.String; 这些不会的
解释：这个错误是很常见的错误，错误的提示已经很清楚了就是java的Object数组不能转换成为String[]数组，这就说明你要转换的数组它本身是Object类型的数组，但是你却非要把它转换为String类的数组，这当然是错误的。示例：[java]viewplaincopypackagecom.dada;importjava.util.ArrayList;importjava.util.List;
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
【免费下载】 Aspose for Java：解锁无水印、无限制的文档处理能力房征劲Kendall
AsposeforJava：解锁无水印、无限制的文档处理能力【下载地址】AsposeforJava-去除水印和数量限制AsposeforJava-去除水印和数量限制Aspose是一个著名的文档处理库，专为Java应用程序设计，支持多种文档格式的操作，如Word、Excel、PDF等项目地址:https://gitcode.com/open-source-toolkit/56c82项目介绍在现代企业
微服务日志追踪，Skywalking接入TraceId功能 Victor刘微服务 skywalking java
文章目录一、借助skywalking追加traceIdlogbacklog4j2效果二、让skywalking显示日志内容版本差异logback配置文件log4j2配置文件一、借助skywalking追加traceId背景：在微服务或多副本中难以观察一个链路的日志，需要通过唯一traceId标识来查找，下面介绍Skywalking-traceId在Java中的配置方法。介绍两种java日志的配置方
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
【Java Web实战】从零到一打造企业级网上购书网站系统 | 完整开发实录（三）笙囧同学 java 前端状态模式
核心功能设计用户管理系统用户管理是整个系统的基础，我设计了完整的用户生命周期管理：用户注册流程验证失败验证通过验证失败验证通过用户名已存在用户名可用失败成功用户访问注册页面填写注册信息前端表单验证显示错误提示提交到后端后端数据验证返回错误信息用户名唯一性检查提示用户名重复密码加密处理保存用户信息保存成功?显示系统错误注册成功跳转登录页面登录认证机制深度解析我实现了一套企业级的多层次安全认证机制：认
Java：数据结构-ArrayList和顺序表（2） blammmp java 数据结构开发语言
一ArrayList的使用1.ArrayList的构造方法第一种（指定容量的构造方法）创建一个空的ArrayList，指定容量为initialCapacity。publicArrayList(intinitialCapacity){if(initialCapacity>0){this.elementData=newObject[initialCapacity];}elseif(initialCap
CMS垃圾回收器和G1垃圾回收器区别_g1cms垃圾回收器区别 2401_89191885 jvm
该类所有的实例都已经被回收，也就是Java堆中不存在该类的任何实例；加载该类的ClassLoader已经被回收；该类对应的java.lang.Class对象没有在任何地方被引用，无法在任何地方通过反射访问该类的方法。3.常见的垃圾回收算法1、Mark-Sweep（标记-清除算法）：（1）思想：标记清除算法分为两个阶段，标记阶段和清除阶段。标记阶段任务是标记出所有需要回收的对象，清除阶段就是清除被标
每日面试题15：如何解决堆溢出？ ℡余晖^ 每日面试题 python 开发语言
在Java应用运行过程中，"java.lang.OutOfMemoryError:Javaheapspace"是最常见的错误之一。无论是高并发的电商大促场景，还是持续运行的后台服务，堆内存溢出都可能导致服务不可用、数据丢失，甚至引发系统崩溃。本文将结合实际排查经验，系统讲解堆溢出的底层逻辑、应急处理流程及长效预防策略。一、堆溢出的本质：内存分配的"收支失衡"Java堆是JVM管理的内存区域，用于存
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

Jsoup与HtmlUnit：两大Java爬虫工具对比解析

Jsoup：HTML解析利器

HtmlUnit：无头浏览器引擎

核心优势对比

实战场景选择指南

▶ 首选Jsoup的情况

▶ 必须HtmlUnit的场景

结语

你可能感兴趣的:(Java,爬虫)