韩zj

WebMagic抓取医院科室，医生信息实战及踩坑

简介

WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。
WebMagic概览

使用场景

我用WebMagic抓取公立医院的科室，科室详情，医生，医生详情信息，爬虫技术玩玩还可以，实际应用需谨慎。

实战

先放一篇参考博客WebMagic，我主要参考这篇博客进行的开发，在此基础上进行的修改，并且踩了不少坑，记录一下

集成

首先是pom.xml

<?xml version="1.0" encoding="UTF-8"?>
://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
    >4.0.0>
    >
        >org.springframework.boot>
        >spring-boot-starter-parent>
        >2.7.5>
        > <!-- lookup parent from repository -->
    
    com.example
    WebMagicDemo
    0.0.1-SNAPSHOT
    WebMagicDemo
    WebMagicDemo
    
        8
    
    
        
            org.springframework.boot
            spring-boot-starter
        

        >
            >org.springframework.boot>
            >spring-boot-starter-test>
            >test>
        >
        >
            >org.projectlombok>
            >lombok>
        >
        <!--WebMagic-->
        
            us.codecraft
            webmagic-core
            0.8.0

        >
        >
            >us.codecraft>
            >webmagic-extension>
            >0.8.0>
        >
        >
            >com.google.guava>
            >guava>
            >31.1-jre>
        >

        >
            >com.alibaba>
            >easyexcel>
            >3.3.2>
        >
        <!--测试组件-->
        
            org.springframework.boot
            spring-boot-starter-test
        
        
            org.jsoup
            jsoup
            1.15.4
        

        <!--selenium依赖-->
        
            org.seleniumhq.selenium
            selenium-java
            4.8.1
            
                
                    guava
                    com.google.guava
                
                
                    okio
                    com.squareup.okio
                
            
        


    >

    >
        >
            >
                >org.springframework.boot>
                >spring-boot-maven-plugin>
            >
        >
    >

>

其中easyexcel可选，不需要生成excel不需要集成

JdChromeDownloader

@Component
public class JdChromeDownloader implements Downloader
{

    //声明驱动
    private RemoteWebDriver driver;

    public JdChromeDownloader() {
        //第一个参数是使用哪种浏览器驱动
        //第二个参数是浏览器驱动的地址
        System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");

        //创建浏览器参数对象
        ChromeOptions chromeOptions = new ChromeOptions();

        // 设置为 headless 模式,上课演示,或者学习不要打开
        // chromeOptions.addArguments("--headless");
        // 设置浏览器窗口打开大小
        chromeOptions.addArguments("--window-size=1280,700");
//设置自动化启动时，不显示正在受到自动化软件控制的提示栏
        chromeOptions.setExperimentalOption("excludeSwitches", new String[] {"enable-automation","load-extension"});
        //针对反爬机制，把浏览器不标记为webdriver启动的浏览器。
        chromeOptions.addArguments("--disable-blink-features=AutomationControlled");
        chromeOptions.addArguments("no-sandbox");
        chromeOptions.addArguments("disable-dev-shm-usage");
        chromeOptions.addArguments("--remote-allow-origins=*");

        //创建驱动
        this.driver = new ChromeDriver(chromeOptions);
    }

    @Override
    public Page download(Request request, Task task) {
        try {
            driver.get(request.getUrl());
            Thread.sleep(2000);

            //无论是搜索页还是详情页,都滚动到页面底部,所有该加载的资源都加载
            //需要滚动到页面的底部,获取完整的商品数据
            driver.executeScript("window.scrollTo(0, document.body.scrollHeight - 1000)");
            Thread.sleep(2000l);

            //获取页面对象
            Page page = createPage(request.getUrl(), driver.getPageSource());

            //判断是否是搜索页
            if (request.getUrl().contains("search")) {
                //如果请求url包含search,说明是搜索结果页
                //在搜索结果页,需要获取下一页的链接地址
                //点击下一页按钮,在下一页中获取当前页的url(就是下一页的url),放到任务队列中
                WebElement next = driver.findElement(By.cssSelector("a.pn-next"));
                //点击
                next.click();

                //获取当前页面(其实就是下一页)的url地址
                String nextUrl = driver.getCurrentUrl();

                //使用page对象,把下一页url放到任务列表中
                page.addTargetRequest(nextUrl);
            }

            //关闭浏览器
            //driver.close();

            return page;

        } catch (InterruptedException e) {
            e.printStackTrace();
        }


        return null;
    }

    @Override
    public void setThread(int threadNum) {

    }

    //构建page返回对象
    private Page createPage(String url, String content) {
        Page page = new Page();
        page.setRawText(content);
        page.setUrl(new PlainText(url));
        page.setRequest(new Request(url));
        page.setDownloadSuccess(true);

        return page;
    }

}

StartCrawler

@Component
public class StartCrawler
{
    //@Resource
    //private JdChromeDownloader downloader;
    @Resource
    private MyPipeline jpaPipeline;

    @Resource
    private DeptPipeline deptPipeline;

    @Resource
    private DoctorPipeline doctorPipeline;
    //声明医院科室
    String url = "http://xxxxxx/keshi/";
    //声明医院专家
    String doctorsUrl="http://xxxxxx/zhuanjia/";
    @Scheduled(cron = "0/5 * * * * *")
    public void run() {
        Spider.create(new WxhsDoctorProcessor())
                //.addUrl("https://www.jd.com/news.html?id=38673")
                .addUrl(doctorsUrl)
                //设置下载器
               // .setDownloader(downloader)
               // .addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
                .addPipeline(doctorPipeline)
                .run();
    }


}

这个文件的作用，是5秒钟调用一次爬虫

坑1 集成完毕，运行环境，报“An attempt was made to call a method that does not exist. The attempt was made from the following location”

这个是 maven 版本冲突问题，解决的办法很简单
dea 安装 mavenhelper 插件，点开 pom.xml 文件 =》左下角有 text 和 Dependency Analyzer , 点 Dependency Analyzer，选中 Conflicts ，选中需要解决的冲突 ==》鼠标右键，exclude; 如果不是根的话就，Jump left Tree 之后再 exclude，reimport 就好了

Selenium+headless浏览器实现动态爬虫

我们可以使用HttpClient模拟浏览器抓取静态html，但是对js的解析部分还是很薄弱。虽然我们可以读取js的运作机制并且找到相关数据，但是这样会耗费大量时间。为了解决这个问题我们可以使用工具来模拟浏览器的运行，直接获取解析结果。这就是使用Selenium+headless浏览器来实现动态爬虫。
Selenium
Selenium是一个用于Web应用程序测试的工具。Selenium可以使用代码控制浏览器，就像真正的用户在操作一样。而对于爬虫来说，使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。Selenium支持多种浏览器可以是chrome、Firefox、PhantomJS等

使用WebDriver在Chrome浏览器上进行测试时或者做页面抓取，需要从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序，驱动程序名为chromedriver。chromedriver的版本需要和本机的chrome浏览器对应，才能正常使用，一般情况下下载最新版就可以了。

headless浏览器是一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现

如果想要实现动态爬虫，需要安装chromedriver，可以在浏览器驱动官网网站和淘宝镜像网站下载，先查看浏览器版本，

然后下载对应的驱动chromedriver.exe，放到浏览器安装目录下，在Downloader文件中进行设置，然后设置Spider的下载器 .setDownloader(downloader)，这样运行起来，会调起浏览器，模拟点击动作

坑2浏览器驱动相关问题

我浏览器版本是118，然后驱动最高是114，所以我只能卸载浏览器，然后重新安装的114的，但是会自动升级成最新版本，所以要关闭谷歌浏览器的自动更新功能。关闭方法在这谷歌浏览器自动更新怎么关闭
如果不想要这个功能，可以把代码中的JdChromeDownloader 的@Component去掉，然后把.setDownloader(downloader)去掉就可以了

item

科室信息

@Data
public class DeptItem
{
    private String deptType;
    private String title;
    private String url;
    private String deptDetails;

}

医生信息

@Data
public class DoctorItem
{
    private String doctorType;
    private String name;
    private String url;
    private String img;
    private HashMap<String,String> doctorDetails;

}

pipeline

@Component
public class DoctorPipeline implements Pipeline
{
    private final static Logger log = LoggerFactory.getLogger(DoctorPipeline.class);

    @Override
    public void process(ResultItems resultItems, Task task)
    {
        //获取医生数据
        List<DeptItem> itemList = resultItems.get("itemList");

           log.info("解析医生结果"+itemList);



    }
}

@Component
public class DeptPipeline implements Pipeline
{
    private final static Logger log = LoggerFactory.getLogger(DeptPipeline.class);
    String filePath=TestFileUtil.getPath();
    File templateFile = new File(filePath, "科室介绍临时表.xlsx");
    File destFile = new File(filePath, "科室介绍.xlsx");
    private List<DeptItem> results=new ArrayList();
    @Override
    public void process(ResultItems resultItems, Task task)
    {
        //获取科室数据
        List<DeptItem> itemList = resultItems.get("itemList");
        boolean deptDetail=resultItems.get("deptDetail");
       if(!deptDetail){
           //String fileName = TestFileUtil.getPath() + "科室" + System.currentTimeMillis() + ".xlsx";
           //EasyExcel.write(fileName, DeptData.class).sheet("科室").doWrite(itemList);
           log.info("解析科室结果"+itemList);
       }else {
           //先缓存到本地，实际可以写入数据库
          // results.addAll(itemList);
           log.info("解析科室介绍结果"+itemList);
       }


    }

}

重点是网页解析

通过继承PageProcessor来进行网页解析，先看一下科室信息

对应的样式是

这一段是比较好解析的，

 //科室名称
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");
            List<Selectable> nodes = selectable.css("ul.ksxhul")
                    .nodes();

            List<Selectable> deptTypes = selectable.xpath("//dl/dt/a/strong/text()")
                    .nodes();


            //判断nodes是否有值
            if (nodes != null && nodes.size() > 0)
            {
                List<DeptItem> itemList = new ArrayList<>();


                for (int i = 0; i < nodes.size(); i++)
                {

                    List<Selectable> ksList = nodes.get(i)
                            .css("li.keshili")
                            .nodes();

                    for (Selectable ks : ksList)
                    {
                        //创建对象
                        DeptItem item = new DeptItem();
                        if (i < deptTypes.size() && deptTypes.get(i) != null)
                        {
                            item.setDeptType(deptTypes.get(i)
                                    .toString());
                        }

                        item.setUrl(ks.links()
                                .toString());
                        item.setTitle(ks.$("a", "text")
                                .toString());
                        //放到集合中
                        itemList.add(item);

                        //把商品详情页的url放到url任务队列中
                        page.addTargetRequest(item.getUrl());
                    }

                }

                //把需要持久化的数据放到ResultItems中
                page.putField("itemList", itemList);
                page.putField("deptDetail", false);
            }

解析出来的结果是

点击科室，进入科室详情，这个比较复杂，有多种样式，粗略数了数，得十种样式，这样的话，还真不如粘贴复制来得快。我需要把页面里的内容分类

按照“【科室概况】”，“【科室特色】”，“【科研及教育概况】”，“【获得的荣誉称号】”等取出相应的内容，保存到数据库，这是一种样式，比较好解析。里边内容的html标签就筛选掉吧，如果再去解析，实在是太复杂了

//去除html标签
 private   String delHTMLTag(String htmlStr){
        String regEx_script="]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style="]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式

        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
        Matcher m_script=p_script.matcher(htmlStr);
        htmlStr=m_script.replaceAll(""); //过滤script标签

        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
        Matcher m_style=p_style.matcher(htmlStr);
        htmlStr=m_style.replaceAll(""); //过滤style标签

        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
        Matcher m_html=p_html.matcher(htmlStr);
        htmlStr=m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }

Selectable trs = page.getHtml()
                    .xpath("//div[@class=contents]/table/tbody/tr");
            HashMap<String, String> deptDetail = new HashMap<>();
            if (trs != null && trs.nodes()
                    .size() > 0)
            {
                for (Selectable tr : trs.nodes())
                {
                    List<String> all = tr.xpath("//td/p/span")
                            .all();
                    Selectable key = tr.xpath("//td/p/b/span/text()");
                    if (StringUtils.isNotBlank(key.toString()))
                    {
                        String detail = String.join("", all);
                        String detailNoHtml=delHTMLTag(detail);
                        Pattern pattern = Pattern.compile(" ");
                        Matcher matcher = pattern.matcher(detailNoHtml);
                        String result = matcher.replaceAll("");
                        deptDetail.put(key.toString(), result);
                    }


                }

            }

这样解析出来的数据就是

解析科室介绍结果[DeptItem(deptType=null, title=心血管内科, url=null, deptDetails={【科研及教育概况】=获国家和省市级科研课题资助30余项，包括国家自然科学基金课题资助项目12项，其中面上项目3项，青年基金9项；江苏省自然科学基金资助项目6项。获省、市科技进步奖及医学新技术引进奖29项，其中省级科技进步奖及医学新技术引进奖18项，包括江苏省科技进步三等奖1项，江苏省医学新技术引进一等奖3项，二等奖12项，江苏医学科技奖三等奖2项。近5年来，在SCI及中华系列杂志发表论文100余篇，其中I区和II区SCI论文20余篇，在《中华心血管病杂志》上发表论文30余篇。目前有博士研究生导师1人，硕士研究生导师5人，目前已培养博士和硕士研究生60余名。, 【科室特色】=有冠心病（心内一科）、起搏电生理（心内二科）和普通心脏病（心内三科）和心脏重症监护室（CCU）四个病区，135张床位，并有独立的心功能科和心血管病实验室。设有心血管专科、专家及高级专家门诊及冠心病、起搏和电生理等专病门诊。常规开展磁导航指导下复杂心律失常射频消融术、心脏再同步起搏技术（CRT及CRT-D）、自动复律除颤起搏器植入术（ICD）、希氏束起搏术、埋藏式心脏起搏器植入术、经皮冠状动脉介入（PCI）治疗和先天性心脏病介入治疗术。近年来开展的新技术有房颤冷冻球囊消融术、无导线心脏起搏器植入术、左心耳封堵术、皮下ICD植入术、经导管主动脉瓣置换术（TAVR）。, 【科室概况】=南京医科大学附属无锡人民医院心血管内科为江苏省重点学科建设单位、江苏省首批临床重点专科、南京医科大学重点学科、南京医科大学博士研究生培养点和博士后流动站、国家卫健委首批介入准入资格学科和中国医师协会介入培训基地。拥有无锡市“太湖人才计划”顶级医学专家团队，是无锡市心血管病临床医学中心。心血管内科现有医护人员95人，其中医生41人，护士54人，其中医生高级职称29人，医学博士17人、医学硕士22人，留学归国人员6人。拥有磁导航系统、双C臂DSA、杂交手术室、双源CT、三维电生理标测系统、冠状动脉内超声和食道超声等先进设备。, 【获得的荣誉称号】=2022年获批江苏省心血管内科重点学科建设单位2022年获批房颤中心示范基地2021年获批无锡市医学重点学科2021获批无锡市“太湖人次计划”顶级医学专家团队2019年王如兴获得无锡市“五一”劳动奖章})]

现在发现还有多种样式，比如

这样的样式看着都头大，如果还像之前那样解析，只能说很复杂，现在按最简单的做，就是把内容全部取出来，去掉html标签，然后后期根据业务需求，比如获取“【科研及教育概况】”的数据，可以通过字符串分割来获取

坑3.如何去掉java字符串里的html标签

首先想到的是通过正则表达式来删除，比如

 private String delHTMLTag(String htmlStr)
    {
        String regEx_script = "]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style = "]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式

        Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
        Matcher m_script = p_script.matcher(htmlStr);
        htmlStr = m_script.replaceAll(""); //过滤script标签

        Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
        Matcher m_style = p_style.matcher(htmlStr);
        htmlStr = m_style.replaceAll(""); //过滤style标签

        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
        Matcher m_html = p_html.matcher(htmlStr);
        htmlStr = m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }

然后这样使用

        String detailNoHtml = delHTMLTag(detail);
        Pattern pattern = Pattern.compile(" ");
        Matcher matcher = pattern.matcher(detailNoHtml);
        String result=matcher.replaceAll("");

结果，不理想，虽然标签去掉了，但是留下好多空白，这个时候，需要用到Jsoup

Jsoup.parse(detail).text().replace("科室专家)","");

因为我这个网页，最后都有"科室专家)”四个字，是另一个标签的，与内容无关，所以去掉

我把优化后的科室解析方法发一下

@Component
public class WuxiHospitalPageProcessor implements PageProcessor
{
    private final static Logger log = LoggerFactory.getLogger(WuxiHospitalPageProcessor.class);

    @Override
    public void process(Page page)
    {
        Selectable top = page.getHtml()
                .css("div.right_top", "text");

        log.info("getHtml" + top);
        //科室详情页
        if (StringUtils.isNotBlank(top.toString()) && top.toString()
                .contains("内容阅读"))
        {
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");

            Selectable title = selectable.css("div.titleks", "text");


            String result = null;

            List<String> trsOthers = page.getHtml()
                    .xpath("//div[@class=contents]")
                    .all();//内容放在pre标签的

            result = filterResult(trsOthers);


            List<DeptItem> itemList = new ArrayList<>();
            DeptItem item = new DeptItem();
            item.setDeptDetails(result);
            item.setTitle(title.toString());

            //放到集合中
            itemList.add(item);

            //把需要持久化的数据放到ResultItems中
            page.putField("itemList", itemList);
            page.putField("deptDetail", true);
        }
        else
        {
            //科室名称
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");
            List<Selectable> nodes = selectable.css("ul.ksxhul")
                    .nodes();

            List<Selectable> deptTypes = selectable.xpath("//dl/dt/a/strong/text()")
                    .nodes();


            //判断nodes是否有值
            if (nodes != null && nodes.size() > 0)
            {
                List<DeptItem> itemList = new ArrayList<>();


                for (int i = 0; i < nodes.size(); i++)
                {

                    List<Selectable> ksList = nodes.get(i)
                            .css("li.keshili")
                            .nodes();

                    for (Selectable ks : ksList)
                    {
                        //创建对象
                        DeptItem item = new DeptItem();
                        if (i < deptTypes.size() && deptTypes.get(i) != null)
                        {
                            item.setDeptType(deptTypes.get(i)
                                    .toString());
                        }

                        item.setUrl(ks.links()
                                .toString());
                        item.setTitle(ks.$("a", "text")
                                .toString());
                        //放到集合中
                        itemList.add(item);

                        //把商品详情页的url放到url任务队列中
                        page.addTargetRequest(item.getUrl());
                    }

                }

                //把需要持久化的数据放到ResultItems中
                page.putField("itemList", itemList);
                page.putField("deptDetail", false);
            }
        }


    }

    private String filterResult(List<String> all)
    {
        String detail = String.join("", all);
        //String detailNoHtml = delHTMLTag(detail);
        //Pattern pattern = Pattern.compile(" ");
        //Matcher matcher = pattern.matcher(detailNoHtml);
        //String result=matcher.replaceAll("");
        return Jsoup.parse(detail).text().replace("科室专家)","");
    }

    private String delHTMLTag(String htmlStr)
    {
        String regEx_script = "]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style = "]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式

        Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
        Matcher m_script = p_script.matcher(htmlStr);
        htmlStr = m_script.replaceAll(""); //过滤script标签

        Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
        Matcher m_style = p_style.matcher(htmlStr);
        htmlStr = m_style.replaceAll(""); //过滤style标签

        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
        Matcher m_html = p_html.matcher(htmlStr);
        htmlStr = m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }


    private Site site = Site.me()
            .setTimeOut(2000);

    @Override
    public Site getSite()
    {
        return site;
    }
}

医生的页面简单多了


直接贴代码了

/**
 * @author hzj 专家列表
 * @date 2023/10/16 16:21
 */
public class WxhsDoctorProcessor implements PageProcessor
{
    private final static Logger log = LoggerFactory.getLogger(WuxiHospitalPageProcessor.class);
    @Override
    public void process(Page page)
    {
        Selectable top = page.getHtml()
                .css("div.right_top", "text");

        log.info("getHtml" + top);
        //医生详情页
        if (StringUtils.isNotBlank(top.toString()) && top.toString()
                .contains("内容阅读"))
        {
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");

            Selectable title = selectable.css("div.title", "text");


            Selectable trs = page.getHtml()
                    .xpath("//div[@class=contents]/table/tbody/tr");
            HashMap<String, String> doctorDetail = new HashMap<>();
            if (trs != null && trs.nodes()
                    .size() > 0)
            {
                for (Selectable tr : trs.nodes())
                {
                    List<Selectable> doctor = tr.xpath("//td/text()").nodes().stream().filter(x->!"".equals(x.toString())).collect(Collectors.toList());
                    if(doctor.size()==2){
                        doctorDetail.put(doctor.get(0).toString(), doctor.get(1).toString());
                    }else{
                        doctorDetail.put(title.toString(), doctor.toString());
                    }
                }

            }


            List<DoctorItem> itemList = new ArrayList<>();
            DoctorItem item = new DoctorItem();
            item.setName(title.toString());
            item.setDoctorDetails(doctorDetail);


            //放到集合中
            itemList.add(item);

            //把需要持久化的数据放到ResultItems中
            page.putField("itemList", itemList);

        }
        else
        {
            //科室名称
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");
            List<Selectable> nodes = selectable.css("ul.zjxhul")
                    .nodes();

            List<Selectable> doctorTypes = selectable.xpath("//dl/dt/a/strong/text()")
                    .nodes();
            //判断nodes是否有值
            if (nodes != null && nodes.size() > 0)
            {
                List<DoctorItem> itemList = new ArrayList<>();
                for (int i = 0; i < nodes.size(); i++)
                {

                    List<Selectable> dcList = nodes.get(i)
                            .css("li.LMXHZJLB")
                            .nodes();

                    for (Selectable dc : dcList)
                    {
                        //创建对象
                        DoctorItem item = new DoctorItem();
                        if (i < doctorTypes.size() && doctorTypes.get(i) != null)
                        {
                            item.setDoctorType(doctorTypes.get(i)
                                    .toString());
                        }

                        item.setUrl(dc.links()
                                .toString());
                        item.setImg(dc.css("a > img", "src").toString());
                        item.setName(dc.$("a", "text")
                                .toString());
                        //放到集合中
                        itemList.add(item);

                        //把医生详情页的url放到url任务队列中
                        page.addTargetRequest(item.getUrl());
                    }

                }

                //把需要持久化的数据放到ResultItems中
                page.putField("itemList", itemList);

            }
        }


    }

    private Site site = Site.me()
            .setTimeOut(2000);

    @Override
    public Site getSite()
    {
        return site;
    }
}

StartCrawler里切换一下医生相关配置就好了

public void run() {
        Spider.create(new WxhsDoctorProcessor())
                //.addUrl("https://www.jd.com/news.html?id=38673")
                .addUrl(doctorsUrl)
                //设置下载器
               // .setDownloader(downloader)
               // .addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
                .addPipeline(doctorPipeline)
                .run();
    }

医生详情

代码结构

移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Java8 Stream流的sorted()的排序【正序、倒序、多字段排序】 Tony666688888 java windows 开发语言
针对集合排序，java8可以用Stream流的sorted()进行排序。示例Bean以下我们会使用这个Bean来做示例。publicclassOrder{privateStringweight;privateDoubleprice;privateStringdateStr;//忽略getter、setter、构造方法、toString}字段排序首先是比较器Comparator，形式如下：Compa
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
java实习生40多天有感别拿爱情当饭吃
从5月15日开始，我开始第一步步入社会，我今年大三，在一家上市互联网公司做一名实习生，主要做java后端开发。开始的时候，觉得公司的环境挺不错的，不过因为公司在CBD，所以隔壁的午饭和晚饭都要20+RMB，而且还吃不饱，这让我感觉挺郁闷的。一到下午，我就会犯困（因为饿）。因此，我又不得不买一些干粮在公司屯着。关于技术，有一个比较大的项目在需求调研当中，我们做实习生，就是辅助项目经理，测试功能，并且
大学生入门：初识方法及其易踩坑的点
在java学习过程中，我们不难发现有很多重复使用的功能代码块，每次使用如果都要重新写一遍，岂不是很麻烦，就算是“cv”大法，感觉也不是很方便，那么，有什么办法可以解决这个问题呢？方法！java中，一段可重用的，用于执行特定功能的代码块叫做方法，它可以接收参数、返回结果，并且可以被多次使用。一、方法的基本结构[修饰符]返回值类型方法名([参数列表])[throws异常类型]{//方法体}[throw
[Ljava.lang.Object; cannot be cast to [Ljava.lang.String; 这些不会的
解释：这个错误是很常见的错误，错误的提示已经很清楚了就是java的Object数组不能转换成为String[]数组，这就说明你要转换的数组它本身是Object类型的数组，但是你却非要把它转换为String类的数组，这当然是错误的。示例：[java]viewplaincopypackagecom.dada;importjava.util.ArrayList;importjava.util.List;
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
【免费下载】 Aspose for Java：解锁无水印、无限制的文档处理能力房征劲Kendall
AsposeforJava：解锁无水印、无限制的文档处理能力【下载地址】AsposeforJava-去除水印和数量限制AsposeforJava-去除水印和数量限制Aspose是一个著名的文档处理库，专为Java应用程序设计，支持多种文档格式的操作，如Word、Excel、PDF等项目地址:https://gitcode.com/open-source-toolkit/56c82项目介绍在现代企业
微服务日志追踪，Skywalking接入TraceId功能 Victor刘微服务 skywalking java
文章目录一、借助skywalking追加traceIdlogbacklog4j2效果二、让skywalking显示日志内容版本差异logback配置文件log4j2配置文件一、借助skywalking追加traceId背景：在微服务或多副本中难以观察一个链路的日志，需要通过唯一traceId标识来查找，下面介绍Skywalking-traceId在Java中的配置方法。介绍两种java日志的配置方
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
【Java Web实战】从零到一打造企业级网上购书网站系统 | 完整开发实录（三）笙囧同学 java 前端状态模式
核心功能设计用户管理系统用户管理是整个系统的基础，我设计了完整的用户生命周期管理：用户注册流程验证失败验证通过验证失败验证通过用户名已存在用户名可用失败成功用户访问注册页面填写注册信息前端表单验证显示错误提示提交到后端后端数据验证返回错误信息用户名唯一性检查提示用户名重复密码加密处理保存用户信息保存成功?显示系统错误注册成功跳转登录页面登录认证机制深度解析我实现了一套企业级的多层次安全认证机制：认
Java：数据结构-ArrayList和顺序表（2） blammmp java 数据结构开发语言
一ArrayList的使用1.ArrayList的构造方法第一种（指定容量的构造方法）创建一个空的ArrayList，指定容量为initialCapacity。publicArrayList(intinitialCapacity){if(initialCapacity>0){this.elementData=newObject[initialCapacity];}elseif(initialCap
CMS垃圾回收器和G1垃圾回收器区别_g1cms垃圾回收器区别 2401_89191885 jvm
该类所有的实例都已经被回收，也就是Java堆中不存在该类的任何实例；加载该类的ClassLoader已经被回收；该类对应的java.lang.Class对象没有在任何地方被引用，无法在任何地方通过反射访问该类的方法。3.常见的垃圾回收算法1、Mark-Sweep（标记-清除算法）：（1）思想：标记清除算法分为两个阶段，标记阶段和清除阶段。标记阶段任务是标记出所有需要回收的对象，清除阶段就是清除被标
每日面试题15：如何解决堆溢出？ ℡余晖^ 每日面试题 python 开发语言
在Java应用运行过程中，"java.lang.OutOfMemoryError:Javaheapspace"是最常见的错误之一。无论是高并发的电商大促场景，还是持续运行的后台服务，堆内存溢出都可能导致服务不可用、数据丢失，甚至引发系统崩溃。本文将结合实际排查经验，系统讲解堆溢出的底层逻辑、应急处理流程及长效预防策略。一、堆溢出的本质：内存分配的"收支失衡"Java堆是JVM管理的内存区域，用于存
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla