scrapy 爬取w3school

scrapy是一个从网站中提取结构化数据爬虫框架，简单易用。
内部使用Twisted作为处理网络通信，具有异步特性。

开始构建项目，

scrapy start project my project
#myproject 是项目名称

构建一个框架，

scrapy.cfg
myproject/
    __init__.py
    items.py
    pipelines.py
    settings.py
    spiders/
        __init__.py
        ...

scrapy.cfg 存放的目录被认为是项目的根目录。该文件中包含python模块名的字段定义了项目的设置。

定义要爬取的结构化数据

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
定义这个字段定义在items.py文件中，

class W3SchoolItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

创建爬虫spider

进入scrapy.cfg 所在目录，运行下面命令，

scrapy genspider myspider
# my spider 是爬虫的名称，可随意定制

编写提取数据的逻辑

进入到spider目录编辑刚刚创建的myspider.py文件

import scrapy
from scrapy.selector import Selector
from w3school.items import W3SchoolItem

class W3schoolSpiderSpider(scrapy.Spider):
    name = "w3school_spider"
    allowed_domains = ["w3school.com.cn"]
    start_urls = ["http://www.w3school.com.cn/xml/xml_syntax.asp"]

    def parse(self, response):
        # 选择器获取页面源码,
        sel = Selector(response)
        # 使用xparh进行筛选,选取所有div中id为navsecond的层所包含的所有div中id为course的ul中ul标签下的,li标签内容,
        sites = sel.xpath('//div[@id="navsecond"]/div[@id="course"]/ul[1]/li')

        # 定义一个items容器
        items = []
        # site的内容包括href为链接,title为标题,
        for site in sites:
            # 成为ie一个item的字典类型
            item = W3SchoolItem()
            # 对每一个site使用xpath抽取出a标签内的text,href,title.
            title = site.xpath('a/text()').extract()
            link = site.xpath('a/@href').extract()
            desc = site.xpath('a/@title').extract()

            item['title'] = [t.encode('utf-8') for t in title]
            item['link'] = [l.encode('utf-8') for l in link]
            item['desc'] = [d.encode('utf-8') for d in desc]
            # 在列表中加入这个字典
            items.append(item)


        return items

选择器Selector

scrapy中可以使用xpath和css从html中选择数据，

XPath表达式的一些介绍：

1.  /html/head/title: 选择HTML文档中  标签内的  元素
2. /html/head/title/text(): 选择上面提到的 <title> 元素的文字
3. //td: 选择所有的 <td> 元素
4. //div[@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素

</code></pre> 
 <h4>储存数据</h4> 
 <p>在pipelines.py中将取到的item储存在文件中，</p> 
 <pre><code>import codecs
import json


class W3SchoolPipeline(object):
    def __init__(self):
        self.file = codecs.open('w3school_utf-8.json','w',encoding='utf-8')


    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + '\n'

        self.file.write(line.encode('unicode_escape'))
        print(item)

        return item

    def close_spider(self,spider):
        self.file.close()
</code></pre> 
 <h4>配置</h4> 
 <p>在<code>settings.py</code>文件中加入下面代码（其实文件中已经有了只是被注释了）</p> 
 <pre><code>ITEM_PIPELINES = {
   'w3school.pipelines.W3SchoolPipeline': 300,
}
</code></pre> 
 <p>只差最后一步了，</p> 
 <pre><code>scrapy crawl myproejct
</code></pre> 
 <p>等待爬取结束，打开文件就可以看到爬到的数据了！<br> 扫码获取源码，</p> 
 <br> 
 <div class="image-package"> 
  <div class="image-container" style="max-width: 350px; max-height: 280px;"> 
   <div class="image-view"> 
    <a href="http://img.e-com-net.com/image/info10/464c4808a35a4f989c103c7fc70da1d9.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info10/464c4808a35a4f989c103c7fc70da1d9.jpg" width="350" height="280" alt="scrapy 爬取w3school_第1张图片" style="border:1px solid black;"></a> 
   </div> 
  </div> 
  <div class="image-caption">
    PicsArt_03-02-06.50.43.jpg 
  </div> 
 </div> 
</article>
                            </div>
                        </div>
                    </div>
                    <!--PC和WAP自适应版-->
                    <div id="SOHUCS" sid="1232512774131781632"></div>
                    <script type="text/javascript" src="/views/front/js/chanyan.js"></script>
                    <!-- 文章页-底部 动态广告位 -->
                    <div class="youdao-fixed-ad" id="detail_ad_bottom"></div>
                </div>
                <div class="col-md-3">
                    <div class="row" id="ad">
                        <!-- 文章页-右侧1 动态广告位 -->
                        <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_1"> </div>
                        </div>
                        <!-- 文章页-右侧2 动态广告位 -->
                        <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_2"></div>
                        </div>
                        <!-- 文章页-右侧3 动态广告位 -->
                        <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_3"></div>
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </div>
    <div class="container">
        <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(scrapy 爬取w3school)</h4>
        <div id="paradigm-article-related">
            <div class="recommend-post mb30">
                <ul class="widget-links">
                    <li><a href="/article/1950174694187528192.htm"
                           title="【2025/07/20】GitHub 今日热门项目" target="_blank">【2025/07/20】GitHub 今日热门项目</a>
                        <span class="text-muted">Albert_Lsk</span>
<a class="tag" taget="_blank" href="/search/Github%E6%8E%A8%E8%8D%90/1.htm">Github推荐</a><a class="tag" taget="_blank" href="/search/github/1.htm">github</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E6%BA%90%E5%8D%8F%E8%AE%AE/1.htm">开源协议</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E6%BA%90/1.htm">开源</a>
                        <div>GitHub今日热门项目每日精选优质开源项目|发现优质开源项目，跟上技术发展趋势报告概览统计项数值说明报告日期2025-07-20(周日)GitHubTrending每日快照数据时间21:28:08实时爬取生成项目总数15个精选热门开源项目⭐总星数392.7K社区认可度指标今日热度+4.5K24小时新增关注数据洞察核心指标项目总览15个精选项目⭐社区认可392.7K总星标数今日热度4.5K新增关注</div>
                    </li>
                    <li><a href="/article/1949945604893372416.htm"
                           title="Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战" target="_blank">Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战</a>
                        <span class="text-muted"></span>

                        <div>目录引言一、动态页面爬取的技术背景1.1动态页面的核心特征1.2传统爬虫的局限性二、技术选型与架构设计2.1核心组件分析2.2架构设计思路1.分层处理2.数据流三、代码实现与关键技术3.1Selenium与Scrapy的中间件集成3.2BeautifulSoup与ScrapyItem的整合3.3分布式爬取实现3.3.1Scrapy-Redis部署3.3.2多节点启动四、优化与扩展4.1性能优化策略</div>
                    </li>
                    <li><a href="/article/1949943967034437632.htm"
                           title="Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战" target="_blank">Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战</a>
                        <span class="text-muted"></span>

                        <div>目录引言一、动态页面爬取的技术挑战1.1动态页面的核心特性1.2传统爬虫的局限性二、Scrapy+Selenium：动态爬虫的核心架构2.1技术选型依据2.2架构设计2.3代码实现示例三、Celery：分布式任务队列的引入3.1为什么需要Celery？3.2Celery架构设计3.3代码实现示例3.4Scrapy与Celery的集成四、优化与扩展4.1性能优化4.2分布式部署4.3反爬对抗五、总结</div>
                    </li>
                    <li><a href="/article/1949899078280212480.htm"
                           title="十年爬虫经验告诉你爬虫被封怎么办" target="_blank">十年爬虫经验告诉你爬虫被封怎么办</a>
                        <span class="text-muted">congqian8750</span>
<a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a>
                        <div>十年爬虫经验告诉你爬虫被封怎么办现在很多站长都会有抓取数据的需求，因此网络爬虫在一定程度上越来越火爆，其实爬虫的基本功能很简单，就是分析大量的url的html页面，从而提取新的url，但是在实际操作中通常都会遇到各种各样的问题，比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行；或者说为了能正常爬取，减少别人服务器的压力，你需要控制住爬取的速度和工作量···但是即便再小心，很多时候也会遇到</div>
                    </li>
                    <li><a href="/article/1949897938671038464.htm"
                           title="Scrapy 爬虫 IP 被封问题的解决方案" target="_blank">Scrapy 爬虫 IP 被封问题的解决方案</a>
                        <span class="text-muted">杨胜增</span>
<a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/tcp%2Fip/1.htm">tcp/ip</a>
                        <div>Scrapy爬虫IP被封问题的解决方案在使用Scrapy进行网络爬虫开发时，IP被封是一个常见的问题。当爬虫频繁地向目标网站发送请求时，目标网站可能会检测到异常流量，并将爬虫的IP地址加入黑名单，导致后续请求无法正常访问。本文将详细介绍Scrapy爬虫IP被封问题的原因及解决方案。问题描述在运行Scrapy爬虫时，可能会遇到以下类似的情况：请求返回403Forbidden错误，表示服务器拒绝了请求</div>
                    </li>
                    <li><a href="/article/1949893017594818560.htm"
                           title="Python爬虫实战：研究picloud相关技术" target="_blank">Python爬虫实战：研究picloud相关技术</a>
                        <span class="text-muted">ylfhpy</span>
<a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98/1.htm">爬虫项目实战</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/picloud/1.htm">picloud</a>
                        <div>一、引言1.1研究背景与意义在数字化时代，网络数据已成为企业决策、学术研究和社会服务的重要资源。爬虫技术作为自动化获取网络信息的关键手段，在舆情监测、市场分析、学术研究等领域具有广泛应用。Python以其简洁的语法和丰富的爬虫库（如Requests、BeautifulSoup、Scrapy）成为爬虫开发的首选语言。然而，面对海量数据和高并发需求，本地爬虫系统往往面临性能瓶颈。picloud作为专业</div>
                    </li>
                    <li><a href="/article/1949757350831255552.htm"
                           title="程序代码篇---python获取http界面上按钮或者数据输入" target="_blank">程序代码篇---python获取http界面上按钮或者数据输入</a>
                        <span class="text-muted">Atticus-Orion</span>
<a class="tag" taget="_blank" href="/search/%E7%A8%8B%E5%BA%8F%E4%BB%A3%E7%A0%81%E7%AF%87/1.htm">程序代码篇</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/http/1.htm">http</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a>
                        <div>在Python中获取HTTP界面上的按钮点击或数据输入，主要有两种场景：作为客户端：模拟用户在网页上输入数据、点击按钮（比如爬虫自动提交表单）。作为服务端：搭建一个网页服务，接收用户在浏览器中输入的数据和按钮点击（比如自己写一个简单的Web应用）。下面分别用通俗易懂的方式讲解这两种场景的实现方法和代码。一、作为客户端：模拟用户操作网页（自动输入和点击）这种场景常用于自动化测试或数据爬取，需要模拟用</div>
                    </li>
                    <li><a href="/article/1949630514797277184.htm"
                           title="Python爬虫打怪升级：数据获取疑难全解析" target="_blank">Python爬虫打怪升级：数据获取疑难全解析</a>
                        <span class="text-muted">女码农的重启</span>
<a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a>
                        <div>一、引言**在大数据时代，数据就是价值的源泉。而Python爬虫，作为数据获取的得力助手，凭借Python简洁的语法和丰富强大的库，在众多领域发挥着重要作用。无论是电商领域的价格监测、市场调研中的数据收集，还是学术研究里的文献获取，Python爬虫都能大显身手。例如，通过爬取电商平台的商品信息，我们可以分析市场趋势，为企业决策提供有力支持；在学术研究中，利用爬虫获取大量文献资料，能帮助研究人员快速</div>
                    </li>
                    <li><a href="/article/1949607813193986048.htm"
                           title="历史天气信息数据爬取" target="_blank">历史天气信息数据爬取</a>
                        <span class="text-muted">Aronup</span>
<a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1.htm">正则表达式</a>
                        <div>北京市2020年1月份历史天气爬取视频教程（讲的阔以的）1确定目标网址1.1目标网址[2345天气]1.2目标数据北京2020年一月份2分析网页分析过程大家去看视频吧，讲的很好，现学现卖3爬取js文件爬取过程1.构造URL2.用requests获取js，处理成json样式，接下转换成标准的json3.用demjson转换成标准的json4.解析数据放入列表5.封装成一个函数这里使用的工具包分别有：</div>
                    </li>
                    <li><a href="/article/1949581588048179200.htm"
                           title="厌氧菌数据挖掘可行性评估报告" target="_blank">厌氧菌数据挖掘可行性评估报告</a>
                        <span class="text-muted">pk_xz123456</span>
<a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/1.htm">数据挖掘</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E8%B6%85%E5%88%86%E8%BE%A8%E7%8E%87%E9%87%8D%E5%BB%BA/1.htm">超分辨率重建</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E5%AD%A6%E5%BB%BA%E6%A8%A1/1.htm">数学建模</a><a class="tag" taget="_blank" href="/search/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/1.htm">神经网络</a>
                        <div>厌氧菌数据挖掘可行性评估报告前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.项目概述本报告旨在评估使用Python从两个目标网站（https://www.dbdata.com/和https://pubmed.ncbi.nlm.nih.gov/）爬取20种厌氧菌的培养基、培养条件及文献来源信息的可行性。客户希望构建一个网站，使用户能</div>
                    </li>
                    <li><a href="/article/1949524474701344768.htm"
                           title="Jsoup爬虫工具实现背景图片爬取" target="_blank">Jsoup爬虫工具实现背景图片爬取</a>
                        <span class="text-muted">无脑程序猿</span>
<a class="tag" taget="_blank" href="/search/jsoup%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/1.htm">jsoup网络爬虫</a><a class="tag" taget="_blank" href="/search/%E8%83%8C%E6%99%AF%E5%9B%BE%E7%89%87%E4%B8%8B%E8%BD%BD/1.htm">背景图片下载</a><a class="tag" taget="_blank" href="/search/Jsoup-jar/1.htm">Jsoup-jar</a>
                        <div>Jsoup爬虫工具实现背景图片爬取soup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。复制代码之前准备工作首先要将需要的jar包复制到WEB-INF>>lib下面需要下载的Jsoup.jar包以及其使用的具体操作文档下载地址[点击下载]代码块亲测：1366x768大小</div>
                    </li>
                    <li><a href="/article/1949507316541878272.htm"
                           title="Python爬虫实战：使用Selenium与反反爬技术高效爬取大众点评餐厅数据" target="_blank">Python爬虫实战：使用Selenium与反反爬技术高效爬取大众点评餐厅数据</a>
                        <span class="text-muted">Python爬虫项目</span>
<a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/okhttp/1.htm">okhttp</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7/1.htm">测试工具</a>
                        <div>摘要本文将详细介绍如何使用Python爬虫技术获取大众点评网站上的餐厅评分数据。我们将采用Selenium模拟浏览器行为，结合反反爬策略，实现高效、稳定的数据采集。文章包含完整的代码实现、技术解析以及数据处理方法，适合中高级Python开发者学习现代网页爬虫技术。1.引言在当今大数据时代，餐饮行业的数据分析变得越来越重要。大众点评作为中国领先的本地生活信息及交易平台，积累了海量餐厅评价数据。这些数</div>
                    </li>
                    <li><a href="/article/1949486088674406400.htm"
                           title="如何利用 C# 爬取「猫眼电影：最受期待榜」及对应影片信息！" target="_blank">如何利用 C# 爬取「猫眼电影：最受期待榜」及对应影片信息！</a>
                        <span class="text-muted">老马的程序人生</span>

                        <div>“道路千万条，安全第一条！行车不规范，亲人两行泪！”这句在影片“流浪地球”中不断重复的话语已经被大家所熟知。为了行车的安全，我们需要遵守规范，提前规划。同样，在快节奏生活中的我们，也需要抽出时间来规划自己的娱乐。最简单的规划莫过于周末的时候，看看有没有喜欢的电影上映，以便安排自己的娱乐时间。今天，我就带着大家来爬取“猫眼电影：最受期待榜”，通过这份榜单，我们可以看到最近这段时间有哪些电影即将上映，</div>
                    </li>
                    <li><a href="/article/1949417425455869952.htm"
                           title="python爬取豆瓣图书Top250" target="_blank">python爬取豆瓣图书Top250</a>
                        <span class="text-muted"></span>

                        <div>实验要求：爬取豆瓣图书排行榜书单信息，存储到数据库中，并爬取图书评论进行数据分析，提取关键字做成词云展示。实验成果：词云效果图：废话不多说，直接开始实战！爬取数据先来看简单的例子：importrequestsfrombs4importBeautifulSoupurl="https://book.douban.com/top250"headers={'User-Agent':'Mozilla/5.0</div>
                    </li>
                    <li><a href="/article/1949248844109770752.htm"
                           title="Selenium 攻略：从元素操作到 WebDriver 实战" target="_blank">Selenium 攻略：从元素操作到 WebDriver 实战</a>
                        <span class="text-muted">二向箔reverse</span>
<a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7/1.htm">测试工具</a>
                        <div>在自动化测试、网页数据爬取、批量操作网页等场景中，Selenium无疑是最受欢迎的工具之一。作为一款强大的Web自动化工具，它能模拟人类操作浏览器的行为，实现点击、输入、跳转等一系列动作。本文将从基础到进阶，全面解析Selenium的核心用法，帮你快速掌握这一工具的精髓。一、元素定位：找到网页的"积木"操作网页的前提是准确定位元素。Selenium提供了8种定位方式，覆盖绝大多数场景：定位方式方法</div>
                    </li>
                    <li><a href="/article/1949132967020392448.htm"
                           title="Selenium+Playwright 实战：百度搜索结果高效爬取（双引擎对比与反爬绕过）" target="_blank">Selenium+Playwright 实战：百度搜索结果高效爬取（双引擎对比与反爬绕过）</a>
                        <span class="text-muted">Python核芯</span>
<a class="tag" taget="_blank" href="/search/Python%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">Python爬虫实战项目</a><a class="tag" taget="_blank" href="/search/selenium/1.htm">selenium</a><a class="tag" taget="_blank" href="/search/%E7%99%BE%E5%BA%A6/1.htm">百度</a><a class="tag" taget="_blank" href="/search/%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7/1.htm">测试工具</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a>
                        <div>一、引言在当今数字化信息爆炸的时代，搜索引擎已成为人们获取信息的主要途径之一。百度作为国内最大的搜索引擎平台，拥有海量的网页数据和用户搜索记录。对于数据分析师、市场研究人员以及学术学者而言，能够高效地爬取百度搜索结果数据，是开展相关研究和分析工作的关键一步。然而，百度为了保护自身数据和用户隐私，设置了一系列反爬虫机制，这给传统的爬虫技术带来了巨大挑战。本文将深入探讨如何利用Selenium和Pla</div>
                    </li>
                    <li><a href="/article/1949116959828275200.htm"
                           title="用Python爬取中国航空客运量统计数据：从采集到可视化的完整实战教程" target="_blank">用Python爬取中国航空客运量统计数据：从采集到可视化的完整实战教程</a>
                        <span class="text-muted">Python爬虫项目</span>
<a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/websocket/1.htm">websocket</a>
                        <div>一、项目背景与目标随着中国经济的不断发展，航空运输作为国家基础设施的重要组成部分，承载了大量客运流量。了解航空客运量的变化趋势，对经济研究、交通预测、城市规划、投资分析等具有重要意义。然而，公开完整的航空客运数据常分布在不同的网站或动态页面中，不利于直接抓取和分析。因此，我们设计了一个Python爬虫项目，目标是：自动爬取中国民用航空局官网或其公开平台上公布的航空客运量月度数据；实现结构化数据提取</div>
                    </li>
                    <li><a href="/article/1949076969215815680.htm"
                           title="Python 爬虫进阶：优化代码设计，实现高效爬取与存储" target="_blank">Python 爬虫进阶：优化代码设计，实现高效爬取与存储</a>
                        <span class="text-muted"></span>

                        <div>随着数据的不断增多，爬虫技术已成为数据获取和数据挖掘中不可或缺的一部分。对于简单的爬虫来说，代码实现相对简单，但当爬取目标网站的数据量增大时，如何优化代码设计、提高爬取效率、确保数据的准确存储和避免被封禁，就成了爬虫开发中的关键问题。本篇文章将深入探讨如何优化Python爬虫的设计，主要关注以下几个方面：高效的网页爬取：如何提升爬虫的抓取效率。代码模块化设计：如何将爬虫任务拆解成可复用的模块。并发</div>
                    </li>
                    <li><a href="/article/1949040646593507328.htm"
                           title="#python爬取天气数据——和风天气" target="_blank">#python爬取天气数据——和风天气</a>
                        <span class="text-muted">taozighhg</span>
<a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E5%A4%A9%E6%B0%94/1.htm">爬虫天气</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/csv/1.htm">csv</a><a class="tag" taget="_blank" href="/search/excel/1.htm">excel</a><a class="tag" taget="_blank" href="/search/json/1.htm">json</a>
                        <div>@TOC#python爬取天气数据——和风天气Python爬取和风天气（自学，不足之处大家包涵）这是博主第一篇博客，也是断断续续自学python以来第一个试验的爬虫项目。之前看过许多项目，一直担心封IP和反爬之类的问题，直到看到和风天气有个免费API，于是决定尝试一下！接下来会分为几个模块进行。1、前期准备–注册和风天气，添加应用并拿到免费KEY注册地址为*https://dev.heweathe</div>
                    </li>
                    <li><a href="/article/1948967463383265280.htm"
                           title="python爬取京东评论(四)" target="_blank">python爬取京东评论(四)</a>
                        <span class="text-muted">飞向深空</span>

                        <div>改进在于实现了多个牌子和线程池的改进importrequestsimportjsonfromconcurrent.futuresimportThreadPoolExecutorimporttimeimportrefromlxmlimportetreeclasscpu:def__init__(self):self.headers={'User-Agent':'Mozilla/5.0(WindowsN</div>
                    </li>
                    <li><a href="/article/1948900087673450496.htm"
                           title="Spring实现策略模式" target="_blank">Spring实现策略模式</a>
                        <span class="text-muted">oldfish_</span>
<a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E7%AD%96%E7%95%A5%E6%A8%A1%E5%BC%8F/1.htm">策略模式</a>
                        <div>什么是策略模式指对象有某个行为，但是在不同的场景中，该行为有不同的实现算法在有多种算法相似的情况下，使用if…else所带来的复杂和难以维护如我最近写的爬虫小说，行为是爬取小说内容，但是针对不同的网站，实现都不一样本文利用spring和java的新特性，整理了策略模式的两种实现方式本文收获1.java8的lambda2.spring的aware接口3.策略模式实现方式方式一：1.定义接口和实现类，</div>
                    </li>
                    <li><a href="/article/1948832023917424640.htm"
                           title="【JS逆向基础】script框架" target="_blank">【JS逆向基础】script框架</a>
                        <span class="text-muted">是星凡呢</span>
<a class="tag" taget="_blank" href="/search/python%E4%B8%8EJS%E9%80%86%E5%90%91/1.htm">python与JS逆向</a><a class="tag" taget="_blank" href="/search/javascript/1.htm">javascript</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/ecmascript/1.htm">ecmascript</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/JS%E9%80%86%E5%90%91/1.htm">JS逆向</a>
                        <div>scrapy框架1，基本介绍Scrapy一个开源和协作的框架，其最初是为了页面抓取(更确切来说,网络抓取)所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如AmazonAssociatesWebServices)或者通用的网络爬虫。Scrapy是基于twisted</div>
                    </li>
                    <li><a href="/article/1948790908157751296.htm"
                           title="黑客论坛讨论数据爬取：匿名访问配置 + 内容提取实战" target="_blank">黑客论坛讨论数据爬取：匿名访问配置 + 内容提取实战</a>
                        <span class="text-muted">Python核芯</span>
<a class="tag" taget="_blank" href="/search/Python%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">Python爬虫实战项目</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a>
                        <div>一、前言在当今数字化时代，网络爬虫技术已经成为数据科学和信息收集领域的重要工具之一。然而，爬取数据时必须严格遵守法律法规，尊重网站的使用条款和隐私政策。本文将通过一个具体的案例——爬取黑客论坛讨论数据，详细介绍如何配置匿名访问、提取内容，并在合规的前提下进行数据爬取。请注意，本文仅用于技术学习和研究目的，任何未经授权的数据爬取行为都是违法的。黑客论坛是一个充满技术讨论和信息交流的平台，其中包含了许</div>
                    </li>
                    <li><a href="/article/1948777926640070656.htm"
                           title="明星新闻与活动爬取：多源网站聚合抓取 + 增量更新策略" target="_blank">明星新闻与活动爬取：多源网站聚合抓取 + 增量更新策略</a>
                        <span class="text-muted">Python核芯</span>
<a class="tag" taget="_blank" href="/search/Python%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">Python爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%98%8E%E6%98%9F/1.htm">明星</a><a class="tag" taget="_blank" href="/search/%E6%96%B0%E9%97%BB/1.htm">新闻</a>
                        <div>前言在当今信息爆炸的时代，明星新闻和活动信息的更新速度极快，粉丝们常常需要在多个网站之间来回切换，以获取最新的消息。作为一名Python爬虫开发者，我决定通过编写一个Python爬虫程序，实现多源网站的明星新闻与活动信息聚合抓取，并结合增量更新策略，让粉丝们能够在一个平台上获取到最新、最全的资讯。接下来，我将详细介绍整个爬虫项目的开发过程。一、项目概述本项目的目标是从多个知名的娱乐新闻网站（如新浪</div>
                    </li>
                    <li><a href="/article/1948707959479529472.htm"
                           title="python爬虫项目（一百一十四）：招聘网站简历信息自动抓取系统" target="_blank">python爬虫项目（一百一十四）：招聘网站简历信息自动抓取系统</a>
                        <span class="text-muted">斌擎人工智能官方账号</span>
<a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a>
                        <div>引言在如今竞争激烈的就业市场中，企业和招聘机构需要高效地筛选简历，以找到合适的人才。本文将介绍如何构建一个自动化的简历信息抓取系统，帮助用户从招聘网站中高效提取求职者的简历信息。我们将使用Python编程语言，通过现代的爬虫技术，实现数据的抓取和存储。目录引言1.数据需求与目标网站1.1数据需求2.确定抓取策略2.1分析目标网页2.2确定爬取方式3.环境准备4.数据抓取4.1使用requests和</div>
                    </li>
                    <li><a href="/article/1948627788785315840.htm"
                           title="python爬虫实战-小案例：爬取苏宁易购的好评" target="_blank">python爬虫实战-小案例：爬取苏宁易购的好评</a>
                        <span class="text-muted"></span>

                        <div>一、项目背景与价值1为什么爬取商品好评？消费者洞察：分析用户真实反馈，了解产品优缺点市场研究：监测竞品评价趋势，优化产品策略二.实现代码fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptionsfromselenium.webdriver.common.byimportByimporttimeedge_op</div>
                    </li>
                    <li><a href="/article/1948304790287085568.htm"
                           title="手把手教你使用python爬虫之xpath" target="_blank">手把手教你使用python爬虫之xpath</a>
                        <span class="text-muted">景天科技苑</span>
<a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB%E5%89%AF%E4%B8%9A%E5%AE%9E%E6%88%98/1.htm">爬虫副业实战</a><a class="tag" taget="_blank" href="/search/%E9%9B%B6%E5%9F%BA%E7%A1%80/1.htm">零基础</a><a class="tag" taget="_blank" href="/search/%E8%BF%9B%E9%98%B6%E6%95%99%E5%AD%A6/1.htm">进阶教学</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/xpath/1.htm">xpath</a>
                        <div>文章目录xpath1.xpath解析的编码流程2.使用方法2.调用etree对象的xpath方法结合不同形式的xpath表达式进行标签定位和数据提取3.案例应用（1）爬取第一页（2）下载多页xpath环境安装：pipinstalllxml1.xpath解析的编码流程1.创建一个etree类型的对象，然后把即将被解析的页面源码数据加载到该对象中2.调用etree对象的xpath方法结合着不同形式的x</div>
                    </li>
                    <li><a href="/article/1948280212991045632.htm"
                           title="python实现爬取淘宝商品信息(标题、销量、主图、店铺等）" target="_blank">python实现爬取淘宝商品信息(标题、销量、主图、店铺等）</a>
                        <span class="text-muted"></span>

                        <div>因为数据可视化这门课程的大作业要自己爬取数据，想着爬取淘宝的数据，结果找了不少文章都不太行、或者已经失效了等等，就边学边看边写搓了一份代码出来，一是为了记录一下、二是如果大家有需要也可以使用。首先看最后爬取的数据的效果：代码部分api免费测试引入第三方库importpymysqlfromseleniumimportwebdriverfromselenium.common.exceptionsimp</div>
                    </li>
                    <li><a href="/article/1948279582335496192.htm"
                           title="Python 爬取 1688 批量采集商品详情数据实战指南" target="_blank">Python 爬取 1688 批量采集商品详情数据实战指南</a>
                        <span class="text-muted"></span>

                        <div>在电商领域，1688作为国内领先的B2B平台，拥有海量的商品信息。批量采集1688商品详情数据对于市场调研、竞品分析、选品决策等具有重要意义。本文将详细介绍如何使用Python实现1688商品详情数据的批量采集，包括商品的属性、详情图、SKU、价格等信息。一、准备工作1.1注册1688开放平台账号点击注册账号获取AppKey和AppSecret进行测试。1.2安装依赖库在Python中，我们将使用</div>
                    </li>
                    <li><a href="/article/1948278699468058624.htm"
                           title="基于Python的WHO世界卫生数据爬取与分析：最新技术与实战指南" target="_blank">基于Python的WHO世界卫生数据爬取与分析：最新技术与实战指南</a>
                        <span class="text-muted">Python爬虫项目</span>
<a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E5%8F%AF%E8%A7%86%E5%8C%96/1.htm">信息可视化</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/okhttp/1.htm">okhttp</a><a class="tag" taget="_blank" href="/search/scrapy/1.htm">scrapy</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a>
                        <div>摘要本文详细介绍了如何使用Python最新技术爬取世界卫生组织(WHO)公开数据，包括requests-html异步爬虫、Playwright自动化、数据解析与存储等完整流程。文章超过5000字，提供可运行的完整代码示例，并探讨了反爬策略、数据可视化等高级主题。关键词：Python爬虫、WHO数据、数据采集、数据分析、数据可视化1.引言在公共卫生领域，世界卫生组织(WHO)作为联合国下属的专门机构</div>
                    </li>
                                <li><a href="/article/114.htm"
                                       title="戴尔笔记本win8系统改装win7系统" target="_blank">戴尔笔记本win8系统改装win7系统</a>
                                    <span class="text-muted">sophia天雪</span>
<a class="tag" taget="_blank" href="/search/win7/1.htm">win7</a><a class="tag" taget="_blank" href="/search/%E6%88%B4%E5%B0%94/1.htm">戴尔</a><a class="tag" taget="_blank" href="/search/%E6%94%B9%E8%A3%85%E7%B3%BB%E7%BB%9F/1.htm">改装系统</a><a class="tag" taget="_blank" href="/search/win8/1.htm">win8</a>
                                    <div>戴尔win8 系统改装win7 系统详述  
 
第一步：使用U盘制作虚拟光驱： 
        1）下载安装UltraISO：注册码可以在网上搜索。 
        2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文 
</div>
                                </li>
                                <li><a href="/article/241.htm"
                                       title="BeanUtils.copyProperties使用笔记" target="_blank">BeanUtils.copyProperties使用笔记</a>
                                    <span class="text-muted">bylijinnan</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                                    <div>BeanUtils.copyProperties VS PropertyUtils.copyProperties 
 
两者最大的区别是： 
BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。 
既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp</div>
                                </li>
                                <li><a href="/article/368.htm"
                                       title="MyEclipse中文乱码问题" target="_blank">MyEclipse中文乱码问题</a>
                                    <span class="text-muted">0624chenhong</span>
<a class="tag" taget="_blank" href="/search/MyEclipse/1.htm">MyEclipse</a>
                                    <div>一、设置新建常见文件的默认编码格式，也就是文件保存的格式。 
在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。 
在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 
Window-->Preferences-->General -</div>
                                </li>
                                <li><a href="/article/495.htm"
                                       title="发送邮件" target="_blank">发送邮件</a>
                                    <span class="text-muted">不懂事的小屁孩</span>
<a class="tag" taget="_blank" href="/search/send+email/1.htm">send email</a>
                                    <div>  
import org.apache.commons.mail.EmailAttachment;  
import org.apache.commons.mail.EmailException;  
import org.apache.commons.mail.HtmlEmail;  
import org.apache.commons.mail.MultiPartEmail;  
</div>
                                </li>
                                <li><a href="/article/622.htm"
                                       title="动画合集" target="_blank">动画合集</a>
                                    <span class="text-muted">换个号韩国红果果</span>
<a class="tag" taget="_blank" href="/search/html/1.htm">html</a><a class="tag" taget="_blank" href="/search/css/1.htm">css</a>
                                    <div>动画 指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 
1 transition  制作鼠标滑过图片时的放大效果 
 

css
.wrap{
		width: 340px;height: 340px;
		position: absolute;
		top: 30%;
		left: 20%;
		overflow: hidden;
		bor</div>
                                </li>
                                <li><a href="/article/749.htm"
                                       title="网络最常见的攻击方式竟然是SQL注入" target="_blank">网络最常见的攻击方式竟然是SQL注入</a>
                                    <span class="text-muted">蓝儿唯美</span>
<a class="tag" taget="_blank" href="/search/sql%E6%B3%A8%E5%85%A5/1.htm">sql注入</a>
                                    <div>NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。 
信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击 行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占</div>
                                </li>
                                <li><a href="/article/876.htm"
                                       title="java笔记2" target="_blank">java笔记2</a>
                                    <span class="text-muted">a-john</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                                    <div>类的封装： 
1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 
2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 
3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 
4，封装的特性： 
      4.1设置</div>
                                </li>
                                <li><a href="/article/1003.htm"
                                       title="[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx”" target="_blank">[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx”</a>
                                    <span class="text-muted">aijuans</span>
<a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0Android%E9%81%87%E5%88%B0%E7%9A%84%E9%94%99%E8%AF%AF/1.htm">学习Android遇到的错误</a>
                                    <div>        最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。 
 
昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。 
 
我就看了一下，和她要了psd的文件，还好我有一点</div>
                                </li>
                                <li><a href="/article/1130.htm"
                                       title="自己写的一个繁体到简体的转换程序" target="_blank">自己写的一个繁体到简体的转换程序</a>
                                    <span class="text-muted">asialee</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%BD%AC%E6%8D%A2/1.htm">转换</a><a class="tag" taget="_blank" href="/search/%E7%B9%81%E4%BD%93/1.htm">繁体</a><a class="tag" taget="_blank" href="/search/filter/1.htm">filter</a><a class="tag" taget="_blank" href="/search/%E7%AE%80%E4%BD%93/1.htm">简体</a>
                                    <div>          今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。 
         实现的思路是重载request的调取参数的几个方法，然后做下转换。 
          </div>
                                </li>
                                <li><a href="/article/1257.htm"
                                       title="android意图和意图监听器技术" target="_blank">android意图和意图监听器技术</a>
                                    <span class="text-muted">百合不是茶</span>
<a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/%E6%98%BE%E7%A4%BA%E6%84%8F%E5%9B%BE/1.htm">显示意图</a><a class="tag" taget="_blank" href="/search/%E9%9A%90%E5%BC%8F%E6%84%8F%E5%9B%BE/1.htm">隐式意图</a><a class="tag" taget="_blank" href="/search/%E6%84%8F%E5%9B%BE%E7%9B%91%E5%90%AC%E5%99%A8/1.htm">意图监听器</a>
                                    <div>Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递 
  
显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。 
  
隐式意图;不指明调用的名称,根据设</div>
                                </li>
                                <li><a href="/article/1384.htm"
                                       title="spring3中新增的@value注解" target="_blank">spring3中新增的@value注解</a>
                                    <span class="text-muted">bijian1013</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/%40Value/1.htm">@Value</a>
                                    <div>        在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 
1.首先在applicationContext.xml中加入：    
<beans xmlns="http://www.springframework.</div>
                                </li>
                                <li><a href="/article/1511.htm"
                                       title="Jboss启用CXF日志" target="_blank">Jboss启用CXF日志</a>
                                    <span class="text-muted">sunjing</span>
<a class="tag" taget="_blank" href="/search/log/1.htm">log</a><a class="tag" taget="_blank" href="/search/jboss/1.htm">jboss</a><a class="tag" taget="_blank" href="/search/CXF/1.htm">CXF</a>
                                    <div>1. 在standalone.xml配置文件中添加system-properties： 
    <system-properties>        <property name="org.apache.cxf.logging.enabled" value=&</div>
                                </li>
                                <li><a href="/article/1638.htm"
                                       title="【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码" target="_blank">【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码</a>
                                    <span class="text-muted">bit1129</span>
<a class="tag" taget="_blank" href="/search/centos/1.htm">centos</a>
                                    <div>  编译必需的软件 
 
 Firebugs3.0.0 
 Maven3.2.3 
 Ant 
 JDK1.7.0_67 
 protobuf-2.5.0 
 Hadoop 2.5.2源码包 
 
  
  
  
 
 Firebugs3.0.0 
 
  
http://sourceforge.jp/projects/sfnet_findbug</div>
                                </li>
                                <li><a href="/article/1765.htm"
                                       title="struts2验证框架的使用和扩展" target="_blank">struts2验证框架的使用和扩展</a>
                                    <span class="text-muted">白糖_</span>
<a class="tag" taget="_blank" href="/search/%E6%A1%86%E6%9E%B6/1.htm">框架</a><a class="tag" taget="_blank" href="/search/xml/1.htm">xml</a><a class="tag" taget="_blank" href="/search/bean/1.htm">bean</a><a class="tag" taget="_blank" href="/search/struts/1.htm">struts</a><a class="tag" taget="_blank" href="/search/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1.htm">正则表达式</a>
                                    <div>struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 
1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 
2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。 
本文介绍一下struts2通过xml文件进行校验的方法并说</div>
                                </li>
                                <li><a href="/article/1892.htm"
                                       title="记录-感悟" target="_blank">记录-感悟</a>
                                    <span class="text-muted">braveCS</span>
<a class="tag" taget="_blank" href="/search/%E6%84%9F%E6%82%9F/1.htm">感悟</a>
                                    <div>再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 
  
2015-1-11  1. 能在工作之余学习感兴趣的东西已经很幸福了； 
2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 
3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 
4. 一天内集中一个定长时间段看最新资讯和偏流式博</div>
                                </li>
                                <li><a href="/article/2019.htm"
                                       title="编程之美-数组中最长递增子序列" target="_blank">编程之美-数组中最长递增子序列</a>
                                    <span class="text-muted">bylijinnan</span>
<a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E4%B9%8B%E7%BE%8E/1.htm">编程之美</a>
                                    <div>
import java.util.Arrays;
import java.util.Random;

public class LongestAccendingSubSequence {

	/**
	 * 编程之美 数组中最长递增子序列 
	 * 书上的解法容易理解
	 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组，
	 * 然后求排序后的数组与原数</div>
                                </li>
                                <li><a href="/article/2146.htm"
                                       title="读书笔记5" target="_blank">读书笔记5</a>
                                    <span class="text-muted">chengxuyuancsdn</span>
<a class="tag" taget="_blank" href="/search/%E9%87%8D%E5%A4%8D%E6%8F%90%E4%BA%A4/1.htm">重复提交</a><a class="tag" taget="_blank" href="/search/struts2%E7%9A%84token%E9%AA%8C%E8%AF%81/1.htm">struts2的token验证</a>
                                    <div>1、重复提交 
2、struts2的token验证 
3、用response返回xml时的注意 
 
1、重复提交 
(1)应用场景 
(1-1)点击提交按钮两次。 
(1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 
(1-3)刷新页面 
(1-4)使用浏览器历史记录重复提交表单。 
(1-5)浏览器重复的 HTTP 请求。 
(2)解决方法 
(2-1)禁掉提交按钮 
(2-2)</div>
                                </li>
                                <li><a href="/article/2273.htm"
                                       title="[时空与探索]全球联合进行第二次费城实验的可能性" target="_blank">[时空与探索]全球联合进行第二次费城实验的可能性</a>
                                    <span class="text-muted">comsci</span>

                                    <div> 
 
     二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验 
  至今给我们大家留下很多迷团..... 
 
     关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了 
 
     在这里,我的意思是,现在</div>
                                </li>
                                <li><a href="/article/2400.htm"
                                       title="easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符" target="_blank">easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符</a>
                                    <span class="text-muted">daizj</span>
<a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/ORA-12154/1.htm">ORA-12154</a>
                                    <div>用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： 
C:\Users\Administrator>sqlplus username/pwd@192.168.0.5:1521/orcl 
SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 
Copyright (c) 198</div>
                                </li>
                                <li><a href="/article/2527.htm"
                                       title="简单排序:归并排序" target="_blank">简单排序:归并排序</a>
                                    <span class="text-muted">dieslrae</span>
<a class="tag" taget="_blank" href="/search/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F/1.htm">归并排序</a>
                                    <div>
    public void mergeSort(int[] array){
        int temp = array.length/2;
        
        if(temp == 0){
            return;
        }
        
        int[] a = new int[temp];
        int</div>
                                </li>
                                <li><a href="/article/2654.htm"
                                       title="C语言中字符串的\0和空格" target="_blank">C语言中字符串的\0和空格</a>
                                    <span class="text-muted">dcj3sjt126com</span>
<a class="tag" taget="_blank" href="/search/c/1.htm">c</a>
                                    <div>   \0 为字符串结束符，比如说： 
                      abcd (空格)cdefg； 
存入数组时，空格作为一个字符占有一个字节的空间，我们</div>
                                </li>
                                <li><a href="/article/2781.htm"
                                       title="解决Composer国内速度慢的办法" target="_blank">解决Composer国内速度慢的办法</a>
                                    <span class="text-muted">dcj3sjt126com</span>
<a class="tag" taget="_blank" href="/search/Composer/1.htm">Composer</a>
                                    <div>用法： 
有两种方式启用本镜像服务： 
1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 
2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 
为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下      1   2   3   4   5    </div>
                                </li>
                                <li><a href="/article/2908.htm"
                                       title="高效可伸缩的结果缓存" target="_blank">高效可伸缩的结果缓存</a>
                                    <span class="text-muted">shuizhaosi888</span>
<a class="tag" taget="_blank" href="/search/%E9%AB%98%E6%95%88%E5%8F%AF%E4%BC%B8%E7%BC%A9%E7%9A%84%E7%BB%93%E6%9E%9C%E7%BC%93%E5%AD%98/1.htm">高效可伸缩的结果缓存</a>
                                    <div>/**
 * 要执行的算法，返回结果v
 */
public interface Computable<A, V> {
	public V comput(final A arg);

}
 
  
/**
 * 用于缓存数据
 */
public class Memoizer<A, V> implements Computable<A, </div>
                                </li>
                                <li><a href="/article/3035.htm"
                                       title="三点定位的算法" target="_blank">三点定位的算法</a>
                                    <span class="text-muted">haoningabc</span>
<a class="tag" taget="_blank" href="/search/c/1.htm">c</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a>
                                    <div>三点定位， 
已知a,b,c三个顶点的x,y坐标 
和三个点都z坐标的距离，la，lb,lc 
 
求z点的坐标 
原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求 
但是，由于三个点的距离可能不准，不一定会有结果， 
所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 
运行 
gcc -lm test.c 
test.c代码如下 
 

#include "stdi</div>
                                </li>
                                <li><a href="/article/3162.htm"
                                       title="epoll使用详解" target="_blank">epoll使用详解</a>
                                    <span class="text-muted">jimmee</span>
<a class="tag" taget="_blank" href="/search/c/1.htm">c</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E7%AB%AF%E7%BC%96%E7%A8%8B/1.htm">服务端编程</a><a class="tag" taget="_blank" href="/search/epoll/1.htm">epoll</a>
                                    <div>epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu</div>
                                </li>
                                <li><a href="/article/3289.htm"
                                       title="Hibernate对Enum的映射的基本使用方法" target="_blank">Hibernate对Enum的映射的基本使用方法</a>
                                    <span class="text-muted">linzx0212</span>
<a class="tag" taget="_blank" href="/search/enum/1.htm">enum</a><a class="tag" taget="_blank" href="/search/Hibernate/1.htm">Hibernate</a>
                                    <div>  
枚举 
  
/**
 * 性别枚举
 */
public enum Gender {

    MALE(0), FEMALE(1), OTHER(2);

    private Gender(int i) {
        this.i = i;
    }

    private int i;

    public int getI</div>
                                </li>
                                <li><a href="/article/3416.htm"
                                       title="第10章 高级事件（下）" target="_blank">第10章 高级事件（下）</a>
                                    <span class="text-muted">onestopweb</span>
<a class="tag" taget="_blank" href="/search/%E4%BA%8B%E4%BB%B6/1.htm">事件</a>
                                    <div>index.html 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/</div>
                                </li>
                                <li><a href="/article/3543.htm"
                                       title="孙子兵法" target="_blank">孙子兵法</a>
                                    <span class="text-muted">roadrunners</span>
<a class="tag" taget="_blank" href="/search/%E5%AD%99%E5%AD%90/1.htm">孙子</a><a class="tag" taget="_blank" href="/search/%E5%85%B5%E6%B3%95/1.htm">兵法</a>
                                    <div>始计第一 
 
孙子曰： 
兵者，国之大事，死生之地，存亡之道，不可不察也。 
故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五 
曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑 
、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法 
者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校 
之以计，而索其情，曰</div>
                                </li>
                                <li><a href="/article/3670.htm"
                                       title="MySQL双向复制" target="_blank">MySQL双向复制</a>
                                    <span class="text-muted">tomcat_oracle</span>
<a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a>
                                    <div>本文包括: 
 
  主机配置  
  从机配置  
  建立主-从复制  
  建立双向复制  
 
  背景 
按照以下简单的步骤: 
参考一下： 
 
  在机器A配置主机(192.168.1.30)  
  在机器B配置从机(192.168.1.29)  
  我们可以使用下面的步骤来实现这一点  
 
  
步骤1：机器A设置主机 
 
  在主机中打开配置文件 , </div>
                                </li>
                                <li><a href="/article/3797.htm"
                                       title="zoj 3822 Domination(dp)" target="_blank">zoj 3822 Domination(dp)</a>
                                    <span class="text-muted">阿尔萨斯</span>
<a class="tag" taget="_blank" href="/search/Mina/1.htm">Mina</a>
                                    <div> 题目链接：zoj 3822 Domination 
 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。 
 解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理</div>
                                </li>
                </ul>
            </div>
        </div>
    </div>

<div>
    <div class="container">
        <div class="indexes">
            <strong>按字母分类：</strong>
            <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a
                href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a
                href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a
                href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a
                href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a
                href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a
                href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a
                href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a
                href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a>
        </div>
    </div>
</div>
<footer id="footer" class="mb30 mt30">
    <div class="container">
        <div class="footBglm">
            <a target="_blank" href="/">首页</a> -
            <a target="_blank" href="/custom/about.htm">关于我们</a> -
            <a target="_blank" href="/search/Java/1.htm">站内搜索</a> -
            <a target="_blank" href="/sitemap.txt">Sitemap</a> -
            <a target="_blank" href="/custom/delete.htm">侵权投诉</a>
        </div>
        <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.
<!--            <a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">京ICP备09083238号</a><br>-->
        </div>
    </div>
</footer>
<!-- 代码高亮 -->
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script>
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script>
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script>
<link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/>
<script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script>





</body>

</html>