Mi1k7ea

Python爬虫之分布式爬虫

本篇文章主要讲讲分布式爬虫的实现，一个是基于主从模式的方法，另一个则是基于Scrapy_redis分布式实现的方法。

分布式进程：

分布式进程是指将Process进程分布到多台机器上，充分利用多台机器的性能完成复杂的任务。在Python的通过multiprocessing库来完成，该模块不仅支持多进程且还支持将多进程分布到多台机器上。分布式进程就是将把Queue暴露到网络中让其他机器进程可以访问的过程进行了封装，这个过程也称为本地队列的网络化。

创建分布式进程的服务进程（taskManager.py）主要为6个步骤：

1、建立队列Queue，用来进行进程间的通信；

2、把第一步中建立的队列在网络上注册，暴露给其他主机的进程，注册后获得网络队列，相当于本地队列的映像；

3、建立一个对象实例manager，绑定端口和验证口令；

4、启动第三步中建立的实例，即启动管理manager，监管信息通道；

5、通过管理实例的方法获得通过网络访问的Queue对象，即再把网络队列实体化成可以使用的本地队列；

6、创建任务到“本地”队列中，自动上传任务到网络队列中，分配给任务进程进行处理。

Linux版本：

#coding=utf-8
import Queue
from multiprocessing.managers import BaseManager

# 第一步，建立task_queue和result_queue来存放任务和结果
task_queue = Queue.Queue()
result_queue = Queue.Queue()

# 第二步，把创建的两个队列注册在网络上，利用register方法，callable参数关联了Queue对象，将Queue对象在网络中暴露
BaseManager.register('get_task_queue', callable=lambda:task_queue)
BaseManager.register('get_result_queue', callable=lambda:result_queue)

# 第三步，绑定端口8001，设置验证口令，相当于对象初始化
manager = BaseManager(address=('', 8001), authkey='ski12')

# 第四步，启动管理，监听信息通道
manager.start()

# 第五步，通过管理实例的方法获得通过网络访问的Queue对象
task = manager.get_task_queue()
result = manager.get_result_queue()

# 第六步，添加任务
for url in ["ImageUrl_" + str(i) for i in range(10)]:
	print "put task %s ..." % url
	task.put(url)

# 获取返回结果
print "try get result..."
for i in range(10):
	print "result is %s" % result.get(timeout=10)

# 关闭管理
manager.shutdown()

Windows版本：

#coding=utf-8
import Queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support

# 任务个数
task_number = 10

# 第一步，建立task_queue和result_queue来存放任务和结果
task_queue = Queue.Queue(task_number)
result_queue = Queue.Queue(task_number)

def get_task():
	return task_queue

def get_result():
	return result_queue

def win_run():
	# 第二步，把创建的两个队列注册在网络上，利用register方法，callable参数关联了Queue对象，将Queue对象在网络中暴露
	# Windows下绑定调用接口不能使用lambda，所以只能先定义函数再绑定
	BaseManager.register('get_task_queue', callable=get_task)
	BaseManager.register('get_result_queue', callable=get_result)

	# 第三步，绑定端口8001，设置验证口令，相当于对象初始化，Windows下需要填写IP地址
	manager = BaseManager(address=('127.0.0.1', 8001), authkey='ski12')

	# 第四步，启动管理，监听信息通道
	manager.start()

	try:
		# 第五步，通过管理实例的方法获得通过网络访问的Queue对象
		task = manager.get_task_queue()
		result = manager.get_result_queue()

		# 第六步，添加任务
		for url in ["ImageUrl_" + str(i) for i in range(10)]:
			print "put task %s ..." % url
			task.put(url)

		# 获取返回结果
		print "try get result..."
		for i in range(10):
			print "result is %s" % result.get(timeout=10)
	except:
		print "Manager error"
	finally:
		# 一定要关闭管理，否则会报管道未关闭错误
		manager.shutdown()

if __name__ == '__main__':
	# Windows下多进程可能会有问题，添加这句可以缓解
	freeze_support()
	win_run()

而任务进程（taskWorker.py）则分为4个步骤：

1、使用QueueManager注册用于获取Queue的方法名称，任务进程只能通过名称来在网络上获取Queue；

2、连接服务器，端口和验证口令注意保持与服务进程中完全一致；

3、从网络上获取Queue，进行本地化；

4、从task队列获取任务，并把结果写入result队列。

#coding=utf-8
import time
from multiprocessing.managers import BaseManager

# 第一步，使用QueueManager注册用于获取Queue的方法名称
BaseManager.register('get_task_queue')
BaseManager.register('get_result_queue')

# 第二步，连接到服务器
server_addr = '127.0.0.1'
print "Connect to server %s..." % server_addr

# 端口和验证口令注意保持与服务进程完全一致
m = BaseManager(address=(server_addr, 8001), authkey='ski12')

# 从网络连接
m.connect()

# 第三步，获取Queue对象
task = m.get_task_queue()
result = m.get_result_queue()

# 第四步，从task队列获取任务，并把结果写入result队列
while(not task.empty()):
	image_url = task.get(True, timeout=5)
	print "run task download %s..." % image_url
	time.sleep(1)
	result.put("%s--->success" % image_url)

# 处理结束
print "worker exit."

先运行服务进程：

然后运行任务进程：

在服务进程可以查看到任务进程返回的情况：

主从模式的分布式爬虫：

采用主从模式，由一台主机作为控制节点来负责管理所有运行爬虫的主机，爬虫只需从控制节点中接收任务并把新生成的任务提交给控制节点即可。缺点是容易导致整个分布式爬虫系统的性能下降。

控制节点分为URL管理器、数据存储器和控制调度器。

爬虫节点分为HTML下载器、HTML解析器和爬虫调度器。

其实和之前的基础爬虫框架类似，只不过添加了控制调度器来实现分布式的控制管理而已。

ControlNode控制节点：

NodeManager.py：

#coding=utf-8
import time
import sys
from multiprocessing import Queue, Process
from multiprocessing.managers import BaseManager

from DataOutput import DataOutput
from URLManager import UrlManager

class NodeManager(object):
    # 创建一个分布式管理器
    def start_Manager(self, url_q, result_q):
        # 把创建的两个队列注册在网络上，利用register方法，callable参数关联了Queue对象，将Queue对象在网络中暴露
        BaseManager.register('get_task_queue', callable=lambda:url_q)
        BaseManager.register('get_result_queue', callable=lambda:result_q)
        # 绑定端口8001，设置验证口令，相当于对象初始化
        manager = BaseManager(address=('', 8001), authkey='ski12')
        # 返回manager对象
        return manager

    def url_manager_proc(self, url_q, conn_q, root_url):
        url_manager = UrlManager()
        url_manager.add_new_url(root_url)
        while True:
            while(url_manager.has_new_url()):
                # 从URL管理器获取新的url
                new_url = url_manager.get_new_url()
                # 将新的URL发给工作节点
                url_q.put(new_url)
                # print "[*]The number of crawled url is: ", url_manager.old_url_size()
                # 显示进度条
                percentage = u"[*]已爬取的URL数量为：%s" % url_manager.old_url_size()
                sys.stdout.write('\r' + percentage)
                # 加一个判断条件，当爬去2000个链接后就关闭,并保存进度
                if(url_manager.old_url_size()>20):
                    # 通知爬行节点工作结束，添加标识符end
                    url_q.put('end')
                    print u"\n[*]控制节点通知爬行结点结束工作..."
                    # 关闭管理节点，同时存储set状态
                    url_manager.save_progress('new_urls.txt', url_manager.new_urls)
                    url_manager.save_progress('old_urls.txt', url_manager.old_urls)
                    return
            # 将从result_solve_proc获取到的urls添加到URL管理器
            try:
                if not conn_q.empty():
                    urls = conn_q.get()
                    url_manager.add_new_urls(urls)
            except BaseException, e:
                # 延时休息
                time.sleep(0.1)

    def result_solve_proc(self, result_q, conn_q, store_q):
        while True:
            try:
                if not result_q.empty():
                    content = result_q.get(True)
                    if content['new_urls'] == 'end':
                        # 结果分析进程接受通知然后结束
                        print u"[*]关闭数据提取进程"
                        store_q.put('end')
                        return
                    # url为set类型
                    conn_q.put(content['new_urls'])
                    # 解析出来的数据为dict类型
                    store_q.put(content['data'])
                else:
                    # 延时休息
                    time.sleep(0.1)
            except BaseException, e:
                # 延时休息
                time.sleep(0.1)

    def store_proc(self, store_q):
        output = DataOutput()
        while True:
            if not store_q.empty():
                data = store_q.get()
                if data == 'end':
                    print u"[*]关闭数据存储进程"
                    output.output_end(output.filepath)
                    return
                output.store_data(data)
            else:
                time.sleep(0.1)

if __name__ == '__main__':
    if len(sys.argv) == 2:
        url = 'https://baike.baidu.com/item/' + sys.argv[1]
        # 初始化4个队列
        url_q = Queue()
        result_q = Queue()
        conn_q = Queue()
        store_q = Queue()
        # 创建分布式管理器
        node = NodeManager()
        manager = node.start_Manager(url_q, result_q)
        # 创建URL管理进程、 数据提取进程和数据存储进程
        url_manager_proc = Process(target=node.url_manager_proc, args=(url_q, conn_q, url))
        result_solve_proc = Process(target=node.result_solve_proc, args=(result_q, conn_q, store_q))
        store_proc = Process(target=node.store_proc, args=(store_q, ))
        # 启动3个进程和分布式管理器
        url_manager_proc.start()
        result_solve_proc.start()
        store_proc.start()
        manager.get_server().serve_forever()
    else:
        print "[*]Usage: python NodeManager.py [Crawl Keyword]"

UrlManager.py：

#coding=utf-8
import cPickle
import hashlib

class UrlManager(object):
    def __init__(self):
        # 未爬取的URL集合
        self.new_urls = self.load_progress('new_urls.txt')
        # 已爬取的URL集合
        self.old_urls = self.load_progress('old_urls.txt')

    def has_new_url(self):
        return self.new_url_size() != 0

    def get_new_url(self):
        new_url = self.new_urls.pop()
        # 对爬取过的URL进行MD5处理，对获取的信息摘要取中间的128位保存到set(),以减少内存消耗
        m = hashlib.md5()
        m.update(new_url)
        self.old_urls.add(m.hexdigest()[8:-8])
        return new_url

    def add_new_url(self, url):
        if url is None:
            return
        m = hashlib.md5()
        m.update(url)
        url_md5 = m.hexdigest()[8:-8]
        if url not in self.new_urls and url_md5 not in self.old_urls:
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def new_url_size(self):
        return len(self.new_urls)

    def old_url_size(self):
        return len(self.old_urls)

    # 将未爬取的URL集合和已爬取的URL集合序列化到本地，保存当前进度，以便下次恢复状态
    def save_progress(self, path, data):
        with open(path, 'wb') as f:
            cPickle.dump(data, f)

    # 加载进度
    def load_progress(self, path):
        print "[+]从文件加载进度：%s" % path
        try:
            with open(path, 'rb') as f:
                tmp = cPickle.load(f)
                return tmp
        except:
            print "[!]无进度文件，创建：%s" % path
        return set()

DataOutput.py：

#coding=utf-8
import codecs
import time

class DataOutput(object):
    def __init__(self):
        # 生成的文件按照当前时间来命名以区分文件
        self.filepath = 'baike_%s.html' % (time.strftime("%Y_%m_%d_%H_%M_%S", time.localtime()))
        self.output_head(self.filepath)
        self.datas = []

    def store_data(self, data):
        if data is None:
            return
        self.datas.append(data)
        # 对文件进行缓存写入，当大于10条数据时就保存
        if len(self.datas) > 10:
            self.output_html(self.filepath)

    def output_head(self, path):
        fout = codecs.open(path, 'w', encoding='utf-8')
        fout.write("")
        fout.write("")
        fout.write("")
        fout.close()

    def output_html(self, path):
        fout = codecs.open(path, 'a', encoding='utf-8')
        for data in self.datas:
            fout.write("")
            fout.write("" % data['url'])
            fout.write("" % data['title'])
            fout.write("" % data['summary'])
            fout.write("")
            self.datas.remove(data)
        fout.close()

    def output_end(self, path):
        fout = codecs.open(path, 'a', encoding='utf-8')
        fout.write("%s %s %s")
        fout.write("")
        fout.write("")
        fout.close()

SpiderNode爬虫结点：

SpiderWorker.py：

#coding=utf-8
from multiprocessing.managers import BaseManager

from HtmlDownloader import HtmlDownloader
from HtmlParser import HtmlParser

class SpiderWorker(object):
    def __init__(self):
        # 初始化分布式进程中的工作节点的连接工作
        # 实现第一步：使用BaseManager注册获取Queue的方法名称
        BaseManager.register('get_task_queue')
        BaseManager.register('get_result_queue')
        # 实现第二步：连接到服务器:
        server_addr = '127.0.0.1'
        print "[*]Connect to server %s..." % server_addr
        # 端口和验证口令注意保持与服务进程设置的完全一致:
        self.m = BaseManager(address=(server_addr, 8001), authkey='ski12')
        # 从网络连接:
        self.m.connect()
        # 实现第三步：获取Queue的对象
        self.task = self.m.get_task_queue()
        self.result = self.m.get_result_queue()
        # 初始化网页下载器和解析器
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        print "[*]Init finished."

    def crawl(self):
        while True:
            try:
                if not self.task.empty():
                    url = self.task.get()

                    if url == 'end':
                        print "[*]Control Node informs all the Spider Nodes stop working."
                        # 接着通知其它节点停止工作
                        self.result.put({'new_urls':'end', 'data':'end'})
                        return
                    print "[*]The Spider Node is parsing: %s" % url.encode('utf-8')
                    content = self.downloader.download(url)
                    new_urls, data = self.parser.parser(url, content)
                    self.result.put({'new_urls':new_urls, 'data':data})
            except EOFError, e:
                print "[-]Fail to connect to the Worker Node."
                return
            except Exception, e:
                print e
                print "[-]Crawl failed."

if __name__ == '__main__':
    spider = SpiderWorker()
    spider.crawl()

HtmlDownloader.py：

#coding=utf-8
import requests

class HtmlDownloader(object):
    def download(self, url):
        if url is None:
            return None
        user_agent = "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"
        headers = {'User-Agent':user_agent}
        r = requests.get(url, headers=headers)
        if r.status_code == 200:
            r.encoding = 'utf-8'
            return r.text
        return None

HtmlParser.py：

#coding=utf-8
import re
import urlparse
from bs4 import BeautifulSoup as BS

class HtmlParser(object):
    def parser(self, page_url, html_cont):
        if page_url is None or html_cont is None:
            return
        soup = BS(html_cont, 'html.parser', from_encoding='utf-8')
        new_urls = self._get_new_urls(page_url, soup)
        new_data = self._get_new_data(page_url, soup)
        return new_urls, new_data

    def _get_new_urls(self, page_url, soup):
        new_urls = set()
        # 抽取符合要求的a标签
        links = soup.find_all('a', href=re.compile(r'/item/.*'))
        for link in links:
            # 提取href属性
            new_url = link['href']
            # 拼接成完整网址
            new_full_url = urlparse.urljoin(page_url, new_url)
            new_urls.add(new_full_url)
        return new_urls

    def _get_new_data(self, page_url, soup):
        data = {}
        data['url'] = page_url
        title = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find('h1')
        data['title'] = title.get_text()
        summary = soup.find('div', class_='lemma-summary')
        # 获取到tag中包含的所有文版内容包括子孙tag中的内容,并将结果作为Unicode字符串返回
        data['summary'] = summary.get_text()
        return data

为了更方便查看结果，就直接设置爬取超过20条URL信息后就停止爬虫任务：

Redis：

Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。

Redis服务默认连接端口是6379，在Linux中配置文件为redis.conf。

在Kali中是默认安装启动了的：

连接Redis服务的命令：redis-cli -h host -p port -a password

由于该Redis是在Kali本机安装且没有设置密码，则直接使用redis-cli命令即可。

Redis的5种数据类型：

1、string类型：

可以包含任何数据，一个key对应一个value。

2、hash类型：

是一个string类型的field和value的映射表，适合用于存储对象。

hmset较hset相比可设置多个field值。

3、list类型：

一个双向键表，每个元素都是string类型，可以使用push、pull等操作从链表的头部或尾部添加或删除元素。

lrange从指定位置起取出元素。

4、set类型：

是string类型的无序集合，通过hash table实现。

5、sorted set类型：

在set类型的基础上添加了一个顺序属性，会关联一个double类型的score。

Python与Redis交互：

安装Redis库：pip install redis

直接指定主机和端口建立连接：

也可以使用连接池管理Redis的连接，避免每次建立和释放连接的开销：

Scrapy_redis：

安装好Scrapy后，直接安装Scrapy_redis即可：pip install scrapy_redis

然后再到Scrapy项目的settings.py中配置Redis即可：

Scrapy_redis分布式爬虫：

Scrapy继承Redis，通过安装scrapy-redis组件实现，主要是将Request队列放到了Redis中，使得多台单机可以通过Redis获取Request来实现分布式，同时将要存储的结构化数据存到Redis队列中。

安装scrapy-redis：pip install scrapy_redis

安装完成之后还需要到settings.py中配置：

这里以爬取云起书院的书库http://yunqi.qq.com/bk作为示例，包括每本小说的名称、作者、分类、状态、更新时间、字数、点击量、人气和推荐等数据：

首先创建爬虫：

scrapy genspider [-t template] 命令可以在当前项目中创建spider，是一种快捷创建spider的方法。

接着定义Item，因为访问时是分为两部分的，因而主要定义两个，一个是文章列表中小说的基本信息，另一个是具体的小说的热度等信息：

items.py：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class YunqiBookListItem(scrapy.Item):
	# define the fields for your item here like:
	# 小说ID
	novelId = scrapy.Field()
	# 小说名
	novelName = scrapy.Field()
	# 链接
	novelLink = scrapy.Field()
	# 作者
	novelAuthor = scrapy.Field()
	# 类型
	novelType = scrapy.Field()
	# 小说状态
	novelStatus = scrapy.Field()
	# 更新时间
	novelUpdateTime = scrapy.Field()
	# 字数
	novelWords = scrapy.Field()
	# 小说封面
	novelImageUrl = scrapy.Field()

class YunqiBookDetailItem(scrapy.Item):
	# define the fields for your item here like:
	# 小说ID
	novelId = scrapy.Field()
	# 小说标签
	novelLabel = scrapy.Field()
	# 总点击量
	novelAllClick = scrapy.Field()
	# 月点击量
	novelMonthClick = scrapy.Field()
	# 周点击量
	novelWeekClick = scrapy.Field()
	# 总人气
	novelAllPopular = scrapy.Field()
	# 月人气
	novelMonthPopular = scrapy.Field()
	# 周人气
	novelWeekPopular = scrapy.Field()
	# 评论数
	novelCommentNum = scrapy.Field()
	# 总推荐
	novelAllComm = scrapy.Field()
	# 月推荐
	novelMonthComm = scrapy.Field()
	# 周推荐
	novelWeekComm = scrapy.Field()

解析页面编写爬虫模块：

可以看到翻页链接的正则表达式可以写为：“/bk/so2/n10p\d+”，并在rules中定义该规则。

每页小说数量：.//div[@class="book"]

在每一页的books的xpath节点的基础上再进行选择：

得出各个元素的xpath表达式：

小说封面：./a/img/@src

小说ID：./div[@class='book_info']/h3/a/@id

小说名：./div[@class='book_info']/h3/a/text()

链接：./div[@class='book_info']/h3/a/@href

先找当前小说简介框内的所有结点：./div[@class='book_info']/dl/dd[@class='w_auth']

然后判断该结点的数量是否等于5，有则从当前xpath结点出发逐个寻找对应的元素值：

作者：./a/text()

类别：./a/text()

状态：./text()

更新时间：./text()

字数：./text()

接着分析具体小说页面的内容：

得到各元素的xpath表达式：

标签：.//div[@class='tages']/text()

总点击：.//div[@id='novelInfo']/table/tr[2]/td[1]/text()

总人气：.//div[@id='novelInfo']/table/tr[2]/td[2]/text()

总推荐：.//div[@id='novelInfo']/table/tr[2]/td[3]/text()

月点击：.//div[@id='novelInfo']/table/tr[3]/td[1]/text()

月人气：.//div[@id='novelInfo']/table/tr[3]/td[2]/text()

月推荐：.//div[@id='novelInfo']/table/tr[3]/td[3]/text()

周点击：.//div[@id='novelInfo']/table/tr[4]/td[1]/text()

周人气：.//div[@id='novelInfo']/table/tr[4]/td[2]/text()

周推荐：.//div[@id='novelInfo']/table/tr[4]/td[3]/text()

评论数：.//*[@id='novelInfo_commentCount']/text()

期间爬取评论数时会爬取到0，查看源代码也是0，但页面显示以及查看元素显示的都是160，可以推测该值是经过JS渲染生成的：

可以使用webdriver来加载页面再解析的，这里为了方便就直接将评论数为0当成是正常数据来获取吧。

yunqi_qq_com.py：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

from yunqiCrawl.items import YunqiBookListItem, YunqiBookDetailItem

class YunqiQqComSpider(CrawlSpider):
    name = 'yunqi.qq.com'
    allowed_domains = ['yunqi.qq.com']
    start_urls = ['http://yunqi.qq.com/bk/so2/n10p1']

    # 
    rules = (
        Rule(LinkExtractor(allow=r'/bk/so2/n10p\d+'), callback='parse_book_list', follow=True),
    )

    def parse_book_list(self, response):
        books = response.xpath(".//div[@class='book']")
        for book in books:
            novelImageUrl = book.xpath("./a/img/@src").extract_first()
            novelId = book.xpath("./div[@class='book_info']/h3/a/@id").extract_first()
            novelName = book.xpath("./div[@class='book_info']/h3/a/text()").extract_first()
            novelLink = book.xpath("./div[@class='book_info']/h3/a/@href").extract_first()
            novelInfo = book.xpath("./div[@class='book_info']/dl/dd[@class='w_auth']")
            if len(novelInfo) == 5:
                novelAuthor = novelInfo[0].xpath("./a/text()").extract_first()
                novelType = novelInfo[1].xpath("./a/text()").extract_first()
                novelStatus = novelInfo[2].xpath("./text()").extract_first()
                novelUpdateTime = novelInfo[3].xpath("./text()").extract_first()
                novelWords = novelInfo[4].xpath("./text()").extract_first()
            else:
                novelAuthor = ''
                novelType = ''
                novelStatus = ''
                novelUpdateTime = ''
                novelWords = 0

            bookListItem = YunqiBookListItem(novelId=novelId, novelName=novelName, 
                novelLink=novelLink, novelType=novelType, 
                novelStatus=novelStatus, novelAuthor=novelAuthor, 
                novelWords=novelWords, novelUpdateTime=novelUpdateTime, novelImageUrl=novelImageUrl)
            yield bookListItem

            request = scrapy.Request(url=novelLink, callback=self.parse_book_detail)
            request.meta['novelId'] = novelId
            yield request


    def parse_book_detail(self, response):
        novelId = response.meta['novelId']
        novelLabel = response.xpath(".//div[@class='tags']/text()").extract_first()

        novelAllClick = response.xpath(".//div[@id='novelInfo']/table/tr[2]/td[1]/text()").extract_first()
        novelMonthClick = response.xpath(".//div[@id='novelInfo']/table/tr[3]/td[1]/text()").extract_first()
        novelWeekClick = response.xpath(".//div[@id='novelInfo']/table/tr[4]/td[1]/text()").extract_first()

        novelAllPopular = response.xpath(".//div[@id='novelInfo']/table/tr[2]/td[2]/text()").extract_first()
        novelMonthPopular = response.xpath(".//div[@id='novelInfo']/table/tr[3]/td[2]/text()").extract_first()
        novelWeekPopular = response.xpath(".//div[@id='novelInfo']/table/tr[4]/td[2]/text()").extract_first()

        novelAllComm = response.xpath(".//div[@id='novelInfo']/table/tr[2]/td[3]/text()").extract_first()
        novelMonthComm = response.xpath(".//div[@id='novelInfo']/table/tr[3]/td[3]/text()").extract_first()
        novelWeekComm = response.xpath(".//div[@id='novelInfo']/table/tr[4]/td[3]/text()").extract_first()

        novelCommentNum = response.xpath(".//*[@id='novelInfo_commentCount']/text()").extract_first()

        bookDetailItem = YunqiBookDetailItem(novelId=novelId, novelLabel=novelLabel, 
            novelAllClick=novelAllClick, novelAllPopular=novelAllPopular, 
            novelAllComm=novelAllComm, novelMonthClick=novelMonthClick, 
            novelMonthPopular=novelMonthPopular, novelMonthComm=novelMonthComm, 
            novelWeekClick=novelWeekClick, novelWeekPopular=novelWeekPopular, 
            novelWeekComm=novelWeekComm, novelCommentNum=novelCommentNum)
        yield bookDetailItem

接着编写pipelines.py，分成两个集合实现Item到MongoDB集群的存储，并加入数据清洗操作：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymongo
import re

from yunqiCrawl.items import YunqiBookListItem

class YunqicrawlPipeline(object):
    def __init__(self, mongo_uri, mongo_db, replicaset):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
        self.replicaset = replicaset

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri = crawler.settings.get('MONGO_URI'),
            mongo_db = crawler.settings.get('MONGO_DATABASE', 'yunqi'),
            replicaset = crawler.settings.get('REPLICASET')
            )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri, replicaset=self.replicaset)
        self.db = self.client[self.mongo_db]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        if isinstance(item, YunqiBookListItem):
            self._process_bookList_item(item)
        else:
            self._process_bookDetail_item(item)
        return item

    def _process_bookList_item(self, item):
        self.db.bookInfo.insert(dict(item))

    def _process_bookDetail_item(self, item):
        # 需要对数据进行一下清洗，类似：总字数：10120，提取其中的数字
        pattern = re.compile('\d+')
        # 去掉空格和换行
        item['novelLabel'] = item['novelLabel'].strip().replace('\n', '')

        match = pattern.search(item['novelAllClick'])
        item['novelAllClick'] = match.group() if match else item['novelAllClick']

        match = pattern.search(item['novelMonthClick'])
        item['novelMonthClick'] = match.group() if match else item['novelMonthClick']

        match = pattern.search(item['novelWeekClick'])
        item['novelWeekClick'] = match.group() if match else item['novelWeekClick']

        match = pattern.search(item['novelAllPopular'])
        item['novelAllPopular'] = match.group() if match else item['novelAllPopular']

        match = pattern.search(item['novelMonthPopular'])
        item['novelMonthPopular'] = match.group() if match else item['novelMonthPopular']

        match = pattern.search(item['novelWeekPopular'])
        item['novelWeekPopular'] = match.group() if match else item['novelWeekPopular']

        match = pattern.search(item['novelAllComm'])
        item['novelAllComm'] = match.group() if match else item['novelAllComm']

        match = pattern.search(item['novelMonthComm'])
        item['novelMonthComm'] = match.group() if match else item['novelMonthComm']

        match = pattern.search(item['novelWeekComm'])
        item['novelWeekComm'] = match.group() if match else item['novelWeekComm']

        self.db.bookhot.insert(dict(item))

然后再settings.py中去掉该段注释即可：

接着在settings.py中添加绕过反爬虫的一些机制，如随机选取伪造的User-Agent、禁用cookie以及自动限速等：

RandomUserAgent.py：

#coding=utf-8
import random

class RandomUserAgent(object):
	def __init__(self, agents):
		self.agents = agents

	@classmethod
	def from_crawler(cls, crawler):
		return cls(crawler.settings.getlist('USER_AGENTS'))

	def process_request(self, request, spider):
		request.headers.setdefault('User-Agent', random.choice(self.agents))

激活RandomUserAgent下载器中间件：

禁用cookie，将settings.py中改行注释去掉即可：

自动限速的配置，同样是将相应位置的注释去掉即可：

再在settings.py中添加MongoDB集群的配置以及配置scrapy_redis：

最后运行Redis和MongoDB集群，确保环境配置好后运行爬虫：

可以看到，爬虫运行时是调用了Redis调度的，同时爬取的数据也保存到了MongoDB集群中。

参考自《Python爬虫开发与项目实战》

你可能感兴趣的:(爬虫)

Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
Python爬虫【三十五章】爬虫高阶：基于Docker集群的动态页面自动化采集系统实战程序员_CLUB Python入门到进阶 python 爬虫 docker
目录一、技术演进与行业痛点二、核心技术栈深度解析2.1动态渲染三件套2.2Docker集群架构设计2.3自动化调度系统三、进阶实战案例3.1电商价格监控系统1.技术指标对比2.实现细节3.2新闻聚合平台1.WebSocket监控2.字体反爬破解四、性能优化与运维方案4.1资源消耗对比测试4.2集群运维体系五、总结与未来展望六、Python爬虫相关文章（推荐）一、技术演进与行业痛点在Web3.0时代
Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战
目录引言一、动态页面爬取的技术背景1.1动态页面的核心特征1.2传统爬虫的局限性二、技术选型与架构设计2.1核心组件分析2.2架构设计思路1.分层处理2.数据流三、代码实现与关键技术3.1Selenium与Scrapy的中间件集成3.2BeautifulSoup与ScrapyItem的整合3.3分布式爬取实现3.3.1Scrapy-Redis部署3.3.2多节点启动四、优化与扩展4.1性能优化策略
Python爬虫【三十三章】爬虫高阶：动态页面破解与验证码OCR识别全流程实战程序员_CLUB Python入门到进阶 python 爬虫 ocr
目录一、技术背景与行业痛点二、核心技术与实现路径2.1动态页面处理方案对比2.2Selenium深度集成实践2.3OCR验证码破解方案1.预处理阶段：2.识别阶段：3.后处理阶段三、典型应用场景解析3.1电商价格监控系统1.技术架构2.实现效果3.2社交媒体舆情分析1.特殊挑战2.优化方案：四、合规性与风险控制五、总结Python爬虫相关文章（推荐）一、技术背景与行业痛点在Web3.0时代，网站反
Python爬虫【三十四章】爬虫高阶：动态页面处理与Playwright增强控制深度解析程序员_CLUB Python入门到进阶 python 爬虫开发语言
目录一、技术演进背景与行业挑战二、核心技术栈深度解析2.1动态渲染双引擎架构2.2浏览器指纹伪装方案2.3BeautifulSoup集成实践三、进阶应用场景突破3.1电商价格监控系统3.1.1技术架构创新3.1.2实现效果3.2社交媒体舆情分析3.2.1无限滚动模拟3.2.2WebSocket监控3.2.3Canvas指纹防护四、性能优化与合规方案4.1资源消耗对比测试4.2反爬对抗升级方案五、总
Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战
目录引言一、动态页面爬取的技术挑战1.1动态页面的核心特性1.2传统爬虫的局限性二、Scrapy+Selenium：动态爬虫的核心架构2.1技术选型依据2.2架构设计2.3代码实现示例三、Celery：分布式任务队列的引入3.1为什么需要Celery？3.2Celery架构设计3.3代码实现示例3.4Scrapy与Celery的集成四、优化与扩展4.1性能优化4.2分布式部署4.3反爬对抗五、总结
十年爬虫经验告诉你爬虫被封怎么办 congqian8750 爬虫
十年爬虫经验告诉你爬虫被封怎么办现在很多站长都会有抓取数据的需求，因此网络爬虫在一定程度上越来越火爆，其实爬虫的基本功能很简单，就是分析大量的url的html页面，从而提取新的url，但是在实际操作中通常都会遇到各种各样的问题，比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行；或者说为了能正常爬取，减少别人服务器的压力，你需要控制住爬取的速度和工作量···但是即便再小心，很多时候也会遇到
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博文章数据可视化分析-文章分类下拉框实现 java1234_小锋 NLP NLLP微博舆情分析 python 自然语言处理 flask
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解微博文章数据可视化分析-文章分类下拉框实现视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更
Scrapy 爬虫 IP 被封问题的解决方案杨胜增 scrapy 爬虫 tcp/ip
Scrapy爬虫IP被封问题的解决方案在使用Scrapy进行网络爬虫开发时，IP被封是一个常见的问题。当爬虫频繁地向目标网站发送请求时，目标网站可能会检测到异常流量，并将爬虫的IP地址加入黑名单，导致后续请求无法正常访问。本文将详细介绍Scrapy爬虫IP被封问题的原因及解决方案。问题描述在运行Scrapy爬虫时，可能会遇到以下类似的情况：请求返回403Forbidden错误，表示服务器拒绝了请求
Python requests设置代理的3种方法爱睡觉的圈圈代理服务 python 网络开发语言代理模式
在进行网络爬虫或数据采集时，经常需要使用代理来避免IP被封或突破访问限制。本文介绍Pythonrequests库设置代理的3种常用方法。方法一：基础代理设置最简单的代理设置方式：importrequests#设置代理proxies={'http':'http://proxy_ip:port','https':'https://proxy_ip:port'}#发送请求response=request
代理IP的类型详解：数据中心vs住宅IP
前言做爬虫的时候，代理IP是绕不开的话题。但很多人对代理IP的分类不太了解，经常花了钱却买到不合适的代理，结果还是被封。今天详细聊聊代理IP的分类，特别是数据中心IP和住宅IP的区别，帮你选到最适合的代理。代理IP基础分类按协议分类HTTP代理#只支持HTTP协议proxy={'http':'http://username:[email protected]:8080'}HTTPS代理#支持HT
如何避免IP被加入黑名单：实用防护指南爱睡觉的圈圈代理服务 tcp/ip 网络协议网络
前言IP被封是爬虫开发者最头疼的问题。很多人以为换个User-Agent就能解决，结果还是被秒封。现代反爬虫系统已经非常智能，不仅看IP访问频率，还会分析浏览器指纹、行为模式、TLS指纹等多个维度。要想真正避免被封，需要从多个角度进行防护。今天分享一套完整的IP保护方案，结合Selenium、指纹浏览器等成熟工具，让你的爬虫更像真实用户。反爬虫检测原理网站如何识别爬虫#现代反爬虫系统的检测维度de
爬虫入门：为什么你的爬虫需要代理IP？
前言作为一名在爬虫领域摸爬滚打多年的程序员，我经常收到新手朋友的疑问："为什么我的爬虫跑了一会儿就不工作了？"今天，我就来详细讲解为什么爬虫需要代理IP，以及如何正确使用代理IP来提升爬虫的稳定性和效率。一、爬虫面临的挑战1.1反爬虫机制的普及现代网站都配备了各种反爬虫机制，最常见的包括：反爬虫机制IP限制User-Agent检测验证码行为分析请求频率限制1.2IP封禁的痛点让我们看一个典型的爬虫
Python爬虫IP被封的5种解决方案
前言做爬虫的朋友都遇到过这种情况：程序跑得好好的，突然就开始返回403错误，或者直接连接超时。十有八九是IP被网站封了。现在的网站反爬虫越来越严格，稍微频繁一点就会被拉黑。今天分享几个实用的解决方案，都是我在实际项目中用过的。方案一：代理IP池这是最直接的办法，换个马甲继续干活。基本实现importrequestsimportrandomimporttimeclassProxyPool:def__
Python爬虫实战：研究picloud相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 picloud
一、引言1.1研究背景与意义在数字化时代，网络数据已成为企业决策、学术研究和社会服务的重要资源。爬虫技术作为自动化获取网络信息的关键手段，在舆情监测、市场分析、学术研究等领域具有广泛应用。Python以其简洁的语法和丰富的爬虫库（如Requests、BeautifulSoup、Scrapy）成为爬虫开发的首选语言。然而，面对海量数据和高并发需求，本地爬虫系统往往面临性能瓶颈。picloud作为专业
Python爬虫实战：研究flanker相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 flanker
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信
Python爬虫实战入门：手把手教你抓取豆瓣电影TOP250 xiaobindeshijie7 python 爬虫开发语言其他
文章目录一、环境准备（5分钟搞定）二、第一个爬虫实战（超简单版）2.1基础版代码2.2代码解剖（新人必看）三、突破反爬机制（实战精华）3.1伪装大法3.2请求频率控制3.3代理IP使用四、数据存储（多种姿势）4.1CSV存储4.2MySQL存储五、进阶技巧（高手必备）5.1异步爬虫5.2Selenium动态渲染六、法律与伦理（超级重要！！！）七、下一步学习路线一、环境准备（5分钟搞定）工欲善其事必
BeautifulSoup库深度解析：Python高效解析网页数据的秘籍
在Python爬虫开发领域，获取网页内容后，如何高效解析并提取所需数据是关键一环。BeautifulSoup库凭借其简洁易用、功能强大的特点，成为众多开发者解析网页数据的首选工具。本文将深入剖析BeautifulSoup库，通过丰富的实例，帮助你掌握其核心功能与使用技巧，实现网页数据的精准提取。一、认识BeautifulSoup库BeautifulSoup是Python的一个第三方库，主要用于解析
Python BeautifulSoup 解析网页按钮元素 PythonAI编程架构实战家 Python人工智能与大数据 Python编程之道 python beautifulsoup 开发语言 ai
PythonBeautifulSoup解析网页按钮元素：从基础原理到工程实践的深度解析关键词BeautifulSoup、HTML解析、按钮元素定位、DOM树遍历、CSS选择器、网络爬虫、前端自动化摘要本文系统解析使用PythonBeautifulSoup库定位和提取网页按钮元素的全流程技术方案。从HTML文档的底层结构出发，结合BeautifulSoup的核心解析机制，覆盖从基础概念到高级工程实践
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
XPath class心平气和服务器前端运维
一、XPath基础概念XPath（XMLPathLanguage）是一种用于在XML或HTML文档中定位节点的语言，广泛应用于网页爬虫、数据提取和文档处理。以下将从基础概念到高级技巧全面解析XPath。XPath是一种路径表达式语言，用于在XML/HTML文档中导航和选择节点。二、XPath路径表达式基础1.绝对路径与相对路径绝对路径：从根节点开始，用/分隔，例：/html/body/div#从H
让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验脑袋大大的 uniappx生态专栏前端 javascript vue.js uniapp uniappx
你有没有遇到过这样的尴尬？用户打开你的UniApp项目，首屏白屏几秒钟，用户还没看到内容就走了。尤其是在SEO场景下，搜索引擎爬虫来了，你却只能返回一个“加载中…”的页面，结果自然是——被搜索引擎无情抛弃。但好消息是，从HBuilderX4.18版本起，UniAppX正式支持SSR（ServerSideRendering）服务器端渲染，这意味着你可以让你的UniApp应用“首屏即内容”，秒开页面、
程序代码篇---python获取http界面上按钮或者数据输入 Atticus-Orion 程序代码篇 python http 开发语言
在Python中获取HTTP界面上的按钮点击或数据输入，主要有两种场景：作为客户端：模拟用户在网页上输入数据、点击按钮（比如爬虫自动提交表单）。作为服务端：搭建一个网页服务，接收用户在浏览器中输入的数据和按钮点击（比如自己写一个简单的Web应用）。下面分别用通俗易懂的方式讲解这两种场景的实现方法和代码。一、作为客户端：模拟用户操作网页（自动输入和点击）这种场景常用于自动化测试或数据爬取，需要模拟用
selenium 反爬虫识别特征处理
因为业务中发现网站对selenium特征识别为爬虫了，因此在搜索引擎中搜索进行处理方式一#实例化一个浏览器对象options=webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches',['enable-automation'])ifsys.platform=="win32":browser=webdrive
selenium之反反爬虫无惧代码爬虫 python selenium 爬虫
大多数情况下，检测的基本原理是检测当前浏览器窗口下的window.navigator对象是否包含webdriver这个属性。在正常使用浏览器的情况下，这个属性是undefined，然后一旦我们使用了selenium，这个属性就被初始化为true，很多网站就通过Javascript判断这个属性实现简单的反selenium爬虫。反反爬虫解决措施：fromseleniumimportwebdriverf
爬虫入门（7）——反爬（3）Selenium WHJ226 爬虫入门爬虫 selenium python
目录1Selenium定位方法1.1id定位1.2name定位1.3XPath定位1.4classname定位2模拟操作2.1模拟点击操作2.2模拟输入和搜索操作2.3模拟清除3控制浏览器操作3.1设置浏览器尺寸3.2控制浏览器后退和前进3.3刷新页面爬虫入门（6）——反爬（2）_WHJ226的博客-CSDN博客在该博客-CSDN博客博客中讲了动态渲染，Selenium安装，驱动器下载及配置，以及
Python爬虫“折戟”真相大揭秘：数据获取失败全剖析
爬虫数据获取：理想与现实的落差**在数据驱动的时代，数据宛如一座蕴藏无限价值的宝藏矿山，而Python爬虫则是我们深入矿山挖掘宝藏的得力工具。想象一下，你精心编写了一段Python爬虫代码，满心期待着它能像勤劳的矿工一样，源源不断地从网页中采集到你所需要的数据。当一切准备就绪，代码开始运行，那跳动的进度条仿佛是希望的脉搏。有时候现实却给我们泼了一盆冷水。原本期待着收获满满一桶数据，结果得到的却是寥
Python爬虫打怪升级：数据获取疑难全解析女码农的重启 python 爬虫开发语言
一、引言**在大数据时代，数据就是价值的源泉。而Python爬虫，作为数据获取的得力助手，凭借Python简洁的语法和丰富强大的库，在众多领域发挥着重要作用。无论是电商领域的价格监测、市场调研中的数据收集，还是学术研究里的文献获取，Python爬虫都能大显身手。例如，通过爬取电商平台的商品信息，我们可以分析市场趋势，为企业决策提供有力支持；在学术研究中，利用爬虫获取大量文献资料，能帮助研究人员快速
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs