JohnWSY

selenium+webdriver(POST+GET)国家药监局网爬项目

完整代码链接：https://github.com/JohnWSY/crawlproject-gjypjd

首先确定项目流程：

明确需求

从svn download需求文档，明确分工为国家药监局网站全网内容爬取，根据文档与需求进行对接

确定爬取思路

分三级目录
一级目录：共有六大类，40余种小类正则匹配，进入超链接

二级目录：实现翻页，确定穷尽页的停止机制

详情页根据需求，所需爬取的内容都在最后的详情页

由以上过程中，发现由二级目录到详情页、以及二级目录的翻页url并不改变，说明网站是ajax请求，即异步javascipt和HTML或XML
所以不能从网页匹配http抓取链接。
只得采取笨方法，通过观察一级目录的网页HTML寻找url的规律，进行拼接。在进入网页的调试页面时，又出现了问题。

网页断点问题

进入网页调试界面后，source显示pause in debugger无法继续点击操作，html卡在标签下，content为乱码
通过点击调试台右上角deactivate breakpoints跳过断点,，然后就可以想点哪里点哪里

观察一级目录下的各个分类的content

对比点进目录链接后的headers-request url可以发现有一定的相似度，所以试着采用拼接url的方法进行对服务器的访问，可以得到以下页面

虽然渲染效果不如原网页，而且点击没有继续链接，但是可以通过正则匹配此页的html字段继续进行下一级的url拼接
但还是由于网页的ajax请求，翻页不跳转，所以需要另寻找方法进行翻页遍历，我们开始观察每一页的headers头部信息

我发现头部信息中的form data中的curstart参数就是所在页对应的页码，于是我心生一计，将form data中的所有参数还原为js格式（即点击view source）可以得到一串字符，拼接到下图发现的请求url前面相同的部分也许可以调出页面，实现for循环遍历二级目录页，并最终实现

for i in range(1,457):
    url='http://app1.sfda.gov.cn/datasearchcnda/face3/search.jsp？tableId=121&State=1&bcId=152894035121716369704750131820&State=1&curstart='+str(i)+'&State=1&tableName=TABLE121&State=1&viewtitleName=COLUMN1615&State=1&viewsubTitleName=COLUMN1618,COLUMN1616&State=1&tableView=%25E5%2585%25A8%25E5%259B%25BD%25E8%258D%25AF%25E5%2593%2581%25E6%258A%25BD%25E6%25A3%2580&State=1&cid=0&State=1&ytableId=0&State=1&searchType=search&State=1'
            self.crawl(url,cookies=d,callback=self.index_page)

至此，我们回想一级目录进入二级目录的url拼接方式，发现无法继续执行二级目录的翻页，因为二级目录翻页所需的某些参数信息是特定的（eg:tableId），参照需求所需要的详情页信息，决定为一级目录下的40余类分别建立代码文件，也便于后期的数据清洗。
二级目录可通过循环遍历翻页，采用相同的思想，尝试从二级目录的html文件查找最终详情页的访问方式。发现依然可以采用url拼接的方法，遍历访问二级目录页的每条详情页，并保存其text文件。至此，爬取思路完全确定，开始实现代码。

写代码

因为项目统一管理的要求，采用pyspider框架开展爬虫项目，个人感觉pyspider框架的调试功能以及时间参数的设置非常实用

pyspider框架

时间参数含义网页
@every(minutes=24 * 60) 每隔一天爬取一次
@config(age=10 * 24 * 60 * 60)是设置任务的有效时间为10天，也就是说在10天内不会重复执行
搞明白优先级的意义priority
config(priority=2)priority表示爬取的优先级，没有设置默认为0，数字越大，可优先调用

爬取豆瓣电影top250

尤其在学习使用的过程中，尝试爬取豆瓣电影top250尝试总结出电影打分人数与电影评分之间的关系。虽然最后可视化的结果显示没有明显的关系

但是在过程中使用了框架内置的css选择器功能，通过web键直接调取页面至框架内，通过css选择器直接插入代码匹配的html标签，非常好用，省去打开浏览器调用调控台的操作。

写项目代码（以全国药品抽检为例）

代码完成后的结果却出现了问题，输出框中的content乱码，查看网页源代码发现网页为gbk2312编码，尝试解码
ASCII 加入GB2312 Unicode 存储传输 UTF-8
'(str) '.encode()用括号内的格式编码 ’ '.decode() 用括号内的编码解码位str
结果却还是不变，这时猛然想起网页的断点问题，不是手动解决这么简单的。查询原因，有一个人提到也许与伪装浏览器的头部缺少cookie参数有关
我在全局声明头部中加入了cookies参数，就可以得到结果，但是之后发现再次为领导演示结果时却为空
debug代码发现，从二级目录并未匹配出相应的详情页url字段，当从新更换一个cookie参数，代码又可以跑通了，所以怀疑是cookie的时效问题

class Handler(BaseHandler):
    
    crawl_config = {'headers':{
               'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
                      }
               }
    
    @every(minutes=24 * 60)
    def on_start(self):
        cookies='JSESSIONID=549B26AF6C4ACAE47F799A3D578B4754.7; FSSBBIl1UgzbN7N82S=xyyKdvxgtlj.G7MvXIyuzgZdAK6TxH_R0wXmYbDoiPab8d4.YHE2_Y5W2A_FpyG4; security_session_verify=3e6bcb698895fc61dce2d3ff3b39501a; FSSBBIl1UgzbN7N82T=2LwZLdYmXTxN7NnD5LAGgMXDFSJO5E2myM0jyg.HLlD28hwoV9X_6K5pCCLmzHJEo784W4KBSvC8pT_KcCoxg9gv3MwjVXW0PyUoKozu7uiCw.918QEumKcV6t_iz4yCSQ6PLUj0aM.oQTSFzWjKCBPieTII_5H7.mrqWVT5MLc1qZFKQJxjPhnHDT3HSDRO5xyAoU3Niaks5zjps9F97foHd0IDrwlB2mDrstJJWbD28jSANzZbY72KEBBY_81eu517P6RA.SgCqP7H_58b4OScuaYwDCZaVAqjrzKbZ17DEPA'
        s1=cookies.replace(';',"','")
        s2=s1.replace('=',"':'")
        s3="{'"+s2+"'}"
        s4=s3.replace(' ','')
        d=eval(s4)
        for i in range(1,457):
            url='http://app1.sfda.gov.cn/datasearchcnda/face3/search.jsp?tableId=121&State=1&bcId=152894035121716369704750131820&State=1&curstart='+str(i)+'&State=1&tableName=TABLE121&State=1&viewtitleName=COLUMN1615&State=1&viewsubTitleName=COLUMN1618,COLUMN1616&State=1&tableView=%25E5%2585%25A8%25E5%259B%25BD%25E8%258D%25AF%25E5%2593%2581%25E6%258A%25BD%25E6%25A3%2580&State=1&cid=0&State=1&ytableId=0&State=1&searchType=search&State=1'
            self.crawl(url,cookies=d,callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="javascript:commitForECMA(callbackC,"]').items():
            url='http://app1.sfda.gov.cn/datasearchcnda/face3/'+each.attr.href.split("'")[1]
            self.crawl(url,cookies=response.cookies,callback=self.detail_page)
  
    def detail_page(self,response):
        return{
            'url':response.url,
            'content':response.text
        }

查找发现，可以试着使用session机制解决问题
session机制：采用的是在服务器端保持状态的方案 session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能考虑到减轻服务器性能方面，应当使用COOKIE
一般一个session可持续20-30分钟，所以还是不解决问题，如果在此时间段内未完成爬取，则结果就不成立；而且，即使短时间COOKIE依然会失效
cookie: cookie机制采用的是在客户端保持状态的方案 cookie不是很安全，别人可以分析存放在本地的COOKIE并进行COOKIE欺骗考虑到安全应当使用session
通过request get 发送请求，得到response.cookies
这是个死逻辑，没有cookie就跳不过断点，请求得到的cookie不可用，因为它并不完整
至此，完全放弃pyspider框架，什么统一管理爬取统统放弃，就要做项目里最special的仔

selenium+webdriver 浮出水面

这组搭档简直强大，一手page_source让你无欲无求
首先要pip install selenium 然后再根据电脑使用的浏览器下载对应版本的webdriver，然后就是showtime
pyspider框架在这个项目弃用了，但是我们确定的爬取思路还是正确的，延续使用原有的爬取思路

import re
from selenium import webdriver
from gjypjd.utils import exetcute_sql,if_headless
import pymysql


def main():
    option=None
    #配置文件中开启是否无头，生产阶段关闭
    if if_headless():
        option = webdriver.ChromeOptions()
        option.add_argument(argument='headless')

    for i in range(1, 470):  # 遍历469个一级目录网页
        browser = webdriver.Chrome(chrome_options=option)
        url_1 = 'http://app1.sfda.gov.cn/datasearchcnda/face3/search.jsp?tableId=32&State=1&bcId=152904813882776432084296368957&State=1&curstart='+str(i)+'&State=1&tableName=TABLE32&State=1&viewtitleName=COLUMN302&State=1&viewsubTitleName=COLUMN303,COLUMN299&State=1&tableView=%25E5%259B%25BD%25E4%25BA%25A7%25E8%258D%25AF%25E5%2593%2581%25E5%2595%2586%25E5%2593%2581%25E5%2590%258D&State=1&cid=0&State=1&ytableId=0&State=1&searchType=search&State=1'
        browser.get(url_1)
        s = browser.page_source.replace('amp;', '')
        m = re.findall(r'content.jsp\?tableId=32&tableName=TABLE32&tableView=国产药品商品名&Id=\d+', s, re.M)
        browser.close()

        for j in range(len(m)):
            url_2 = 'http://app1.sfda.gov.cn/datasearchcnda/face3/' + m[j]
            browser = webdriver.Chrome(chrome_options=option)
            browser.get(url_2)
            sql = "insert into t_gcypspm(c_bh, dt_insertTime, c_url, b_content) VALUES (REPLACE(UUID(),\"-\",\"\"), sysdate(), %s,%s)"
            exetcute_sql(sql, [url_2,browser.page_source])
            # pickle.loads(s) 可用该方法将乱码汉字转换
             browser.close()

if __name__ == '__main__':
    main()

这段代码还是有几处要说明的，首先utils.py是全局函数的一个库，当中定义了几个全局函数，例如连接数据库，执行sql语句，if continue判断重复，打印日志等

import configparser
import pymysql
import logging

def logger():
    logging.basicConfig(format='%(asctime)s - %(pathname)s[line:%(lineno)d] - %(levelname)s: %(message)s',
                        level=logging.INFO)
    logger = logging.getLogger('gjypjd')
    return logger

def if_headless():
    cf = configparser.ConfigParser()
    cf.read('./conf/common.ini')

    headless = cf.get('webdriver', 'headless')
    if headless.lower() == 'true':
        return True
    return False

def get_db_conf():
    """
    获取数据库配置信息
    :return:
    """
    cf = configparser.ConfigParser()
    cf.read('./conf/common.ini')

    # print(cf.options("db"))
    db_ip = cf.get('db', 'db_ip')
    db_port = cf.getint('db', 'db_port')
    db_user = cf.get('db', 'db_user')
    db_password = cf.get('db', 'db_password')
    db_name = cf.get('db', 'db_name')
    db_encoding = cf.get('db', 'db_encoding')
    return [db_ip, db_port, db_user, db_password, db_name, db_encoding]

def get_connection():
    conf = get_db_conf()
    return pymysql.connect(host=conf[0], port=conf[1], user=conf[2], password=conf[3], database=conf[4],
                           charset=conf[5])


def exetcute_sql(sql, params):
    """
    执行带有参数的sql
    :param sql:
    :param params:
    :return:
    """
    conn = get_connection()
    try:
        with conn.cursor() as cursor:
            cursor.execute(sql, params)
            logger().info('success execute {}'.format(params[0]))
            conn.commit()
    except:
        logger().error('error execute {}'.format(params[0]))
        conn.rollback()
    finally:
        conn.close()

def select_sql_first(sql, params=None):
    """
    执行带有参数的sql,获取第一条数据
    :param sql:
    :param params:
    :return:
    """
    conn = get_connection()
    try:
        with conn.cursor() as cursor:
            if params:
                cursor.execute(sql, params)
            else:
                cursor.execute(sql)
            data = cursor.fetchone()
            return data
    except:
        logger().error('error execute {}'.format(sql))
        return None
    finally:
        conn.close()

def if_exists(url, tableName):
    """
    检查URL是否存在  如果存在就不进行爬取
    :param url:
    :return:
    """
    sql = 'select count(*) from {} where c_url = \'{}\''.format(tableName, url)
    result = select_sql_first(sql)
    if result[0] == 1:
        return True
    return False

if_headless是浏览器的无头调用函数，因为使用selenium+webdriver需要每次打开浏览器进入请求页面，非常占用电脑的资源，所以设置浏览器的无界面状态，效果就是执行中浏览器不再打开，提升爬取的速度。
代码完成后，需要在数据库中建表来存储爬取到的信息，这又遇到问题
通过uuid, datetime, url, content, json关键字建表，其中contetnt格式为blob（二进制长文本）

/*
 Navicat Premium Data Transfer

 Source Server : 172.18.15.130_3306
 Source Server Type : MySQL
 Source Server Version : 50726
 Source Host : 172.18.15.130:3306
 Source Schema : webdriverdb

 Target Server Type : MySQL
 Target Server Version : 50726
 File Encoding : 65001

 Date: 19/06/2019 14:57:40
*/

SET NAMES utf8mb4;
SET FOREIGN_KEY_CHECKS = 0;

-- ----------------------------
-- Table structure for t_jkypspm
-- ----------------------------
DROP TABLE IF EXISTS `t_jkypspm`;
CREATE TABLE `t_jkypspm` (
  `c_bh` varchar(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '编号',
  `dt_insertTime` datetime(0) DEFAULT NULL COMMENT '插入时间',
  `c_url` varchar(300) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '数据url',
  `b_content` text CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci COMMENT '内容',
  `c_json` varchar(3000) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '数据对应的json',
  PRIMARY KEY (`c_bh`) USING BTREE
) ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_general_ci COMMENT = '进口药品商品名' ROW_FORMAT = Dynamic;

SET FOREIGN_KEY_CHECKS = 1;

但是在数据库的结果中，contetnt汉字部分乱码，因为blob格式为二进制，所以使用pickle模块dumps()函数对其进行序列化，并在数据清洗中使用loads()方法反序列化可得到汉字，但是有些麻烦，跟负责人沟通后，改用text格式存储page_source乱码问题不再出现，并且决定在代码中加入json解析直接得到需求对应的字段，省去后期的数据清洗

\# 化妆品行政许可检验机构

import pickle
import re
from selenium import webdriver
from gjypjd.utils import exetcute_sql,if_headless,if_exists
import json

def main():
    option=None
    #配置文件中开启是否无头，生产阶段关闭
    if if_headless():
        option = webdriver.ChromeOptions()
        option.add_argument(argument='headless')

    for i in range(1, 4):  # 遍历3个一级目录网页
        browser = webdriver.Chrome(chrome_options=option)
        url_1 = 'http://app1.sfda.gov.cn/datasearchcnda/face3/search.jsp?tableId=108&State=1&bcId=152904558282171636476541922479&State=1&curstart='+str(i)+'&State=1&tableName=TABLE108&State=1&viewtitleName=COLUMN1416&State=1&viewsubTitleName=COLUMN1421&State=1&tableView=%25E5%258C%2596%25E5%25A6%2586%25E5%2593%2581%25E8%25A1%258C%25E6%2594%25BF%25E8%25AE%25B8%25E5%258F%25AF%25E6%25A3%2580%25E9%25AA%258C%25E6%259C%25BA%25E6%259E%2584&State=1&cid=0&State=1&ytableId=0&State=1&searchType=search&State=1'
        browser.get(url_1)
        s = browser.page_source.replace('amp;', '')
        m = re.findall(r'content.jsp\?tableId=108&tableName=TABLE108&tableView=化妆品行政许可检验机构&Id=\d+', s, re.M)
        browser.close()

        for j in range(len(m)):
            url_2 = 'http://app1.sfda.gov.cn/datasearchcnda/face3/' + m[j]
            if if_exists(url_2, 't_hzpxzxkjyjg'):
                continue
            browser = webdriver.Chrome(chrome_options=option)
            browser.get(url_2)
            sql = "insert into t_hzpxzxkjyjg(c_bh, dt_insertTime, c_url, b_content, c_json) VALUES (REPLACE(UUID(),\"-\",\"\"), sysdate(), %s,%s,%s)"
            exetcute_sql(sql, [url_2, browser.page_source, parse2json(browser.page_source)])

            # pickle.loads(s) 可用该方法将乱码汉字转换
            browser.close()

def parse2json(html):
    """
    检验机构名称jyjgmc
    联系地址lxdz
    联系人lxr
    联系电话lxdh
    传真cz
    机构类别jglb
    检验项目jyxm
    :return:json
    """
    # 初始化，避免取不到的情况下为空值
    result_json = dict()
    # 批准文号
    reg_dict = dict()
    reg_dict['jyjgmc'] = r"检验机构名称\s*(.*)"
    reg_dict['lxdz'] = r"联系地址\s*(.*)"
    reg_dict['lxr'] = r"联系人\s*(.*)"
    reg_dict['lxdh'] = r"联系电话\s*(.*)"
    reg_dict['cz'] = r"传真\s*(.*)"
    reg_dict['jglb'] = r"机构类别\s*(.*)"
    reg_dict['jyxm'] = r"检验项目\s*(.*)"

    for i, v in reg_dict.items():
        reg_search = re.search(v, html)
        if reg_search is not None:
            result_json[i] = reg_search.group(1)
        else:
            result_json[i] = ''
    return json.dumps(result_json, ensure_ascii=False)

if __name__ == '__main__':
    main()

至此，轰轰烈烈的项目就基本结束了，剩下的只是重复性的调试一级目录内的40余种小类，查看数据库中的结果是否正确

啪啪打脸的结尾

项目并没有结束，在吹响胜利号角的时候，发现了新的问题，那就是post!
核对需求发现有五处详情页列表的问题，跟原模式不太一样了，所以要重新构思，不过有了前面代码的铺垫，还是有点门路的
PS:这里要批评一下随意的需求！！！每当有问题，去跟需求核对，得到的解释大多是，这个不需要了？？？
WTF你知不知道，你看似一个简单的东西，很可能需要我们处理很久，解决很多的难点！！！尤其对于我这种实习生！太气人了！
所以需求必须做好，客户要的不能少，技术做的不能多，如果说需求做不到精确，团队的效率会下降，同时团队凝聚力也会受到很大的影响。
说回来项目：
三个列表页，有两个由我完成，剩下的一个由新来的实习生完成，不得不说赵薇喊这个人真的在这没经历敲代码的痛点，她的痛点主要集中在装软件
先说第一个，化妆品生产许可获证企业

首先这是一个目录页，而且需要翻页，那么F12查看网页源码，发现网页为post请求，ajax通信
通过post man 发送post请求，得到response响应

综上，思路清晰，直接代码

# -*- coding: utf-8 -*-
from seleniumrequests import Chrome
import json
from selenium import webdriver
from gjypjd.utils import  *

def main():
    option = None
    mysql_db = DataBase()
    # 配置文件中开启是否无头，生产阶段关闭
    if if_headless():
        option = webdriver.ChromeOptions()
        option.add_argument(argument='headless')
        option.add_argument('--no-sandbox')

    for i in range(1, 330):
        browser = Chrome(chrome_options=option)
        url='http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList&on=true&page=' + str(
                                  i) + '&pageSize=15&productName=&conditionType=1&applyname=&applysn'
        res = browser.request('post', url)
        # print(res.text)
        res1 = json.loads(res.content)['list']
        # print(res1)
        browser.close()
        for j in range(len(res1)):
            sql = "insert into t_hzpscxkhzqy_lbsj(c_bh, dt_insertTime, c_url, b_content, c_json,c_page) VALUES (REPLACE(UUID(),\"-\",\"\"), sysdate(), %s,%s,%s,%s)"
            mysql_db.exetcute_sql(sql, [url, res.content, parse(res1[j]),
                                        str(i) + '_' + str(j + 1)])

def parse(dic):
    """
    企业名称qymc
    许可证编号xkzbh
    发证机关fzjg
    有效期至yxqz
    发证日期fzrq
    """

    reg_dict = dict()
    reg_dict['qymc'] = dic['EPS_NAME']
    reg_dict['xkzbh'] = dic['PRODUCT_SN']
    reg_dict['fzjg'] = dic['QF_MANAGER_NAME']
    reg_dict['yxqz'] = dic['XK_DATE']
    reg_dict['fzrq'] = dic['XC_DATE']

    return json.dumps(reg_dict, ensure_ascii=False)


if __name__ == '__main__':
    main()

直接得到要求的匹配字段，继续来看，我们需要爬取企业详情页信息，模式跟一级目录也相同

# -*- coding: utf-8 -*-
from seleniumrequests import Chrome
import json
from selenium import webdriver
from gjypjd.utils import  *

def main():
    option = None
    mysql_db = DataBase()
    # 配置文件中开启是否无头，生产阶段关闭
    if if_headless():
        option = webdriver.ChromeOptions()
        option.add_argument(argument='headless')
        option.add_argument('--no-sandbox')

    for i in range(1, 330):
        browser = Chrome(chrome_options=option)
        url_1='http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList&on=true&page=' + str(
                                  i) + '&pageSize=15&productName=&conditionType=1&applyname=&applysn'
        res1 = browser.request('post', url_1)
        # print(res.text)
        res1= json.loads(res1.content)['list']
        # print(res1)
        browser.close()
        for j in range(len(res1)):
            browser = Chrome(chrome_options=option)
            url_2='http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById&id='+res1[j]['ID']
            res2 = browser.request('post', url_2)
            res3 =json.loads(res2.content)
            # print(res3)
            browser.close()
            sql = "insert into t_hzpscxkzhzqy_xkxq(c_bh, dt_insertTime, c_url, b_content, c_json,c_page) VALUES (REPLACE(UUID(),\"-\",\"\"), sysdate(), %s,%s,%s,%s)"
            mysql_db.exetcute_sql(sql, [url_2, res2.content, parse(res3),
                                        str(i) + '_' + str(j + 1)])

def parse(dic):
    """
    企业名称qymc
    许可证编号xkzbh
    许可项目xkxm
    企业住所qyzs
    生产地址scdz
    社会信用代码shxydm
    法定代表人fddbr
    企业负责人qyfzr
    质量负责人zlfzr
    发证机关fzjg
    签发人qfr
    日常监督管理机构rcjdgljg
    日常监督管理人员rcjdglry
    有效期至yxqz
    发证日期fzrq
    状态zt
    投诉举报电话tsjbdh

    """

    reg_dict = dict()
    reg_dict['qymc'] = dic['epsName']
    reg_dict['xkzbh'] = dic['productSn']
    reg_dict['xkxm'] = dic['certStr']
    reg_dict['qyzs'] = dic['epsAddress']
    reg_dict['scdz'] = dic['epsProductAddress']
    reg_dict['shxydm'] = dic['businessLicenseNumber']
    reg_dict['fddbr'] = dic['legalPerson']
    reg_dict['qyfzr'] = dic['businessPerson']
    reg_dict['zlfzr'] = dic['qualityPerson']
    reg_dict['fzjg'] = dic['qfManagerName']
    reg_dict['qfr'] = dic['xkName']
    reg_dict['rcjdgljg'] = dic['rcManagerDepartName']
    reg_dict['rcjdglry'] = dic['rcManagerUser']
    reg_dict['yxqz'] = dic['xkDate']
    reg_dict['fzrq'] = dic['xkDateStr']
    reg_dict['zt'] = '正常'
    reg_dict['jbdh'] = '12331'

    return json.dumps(reg_dict, ensure_ascii=False)


if __name__ == '__main__':
    main()

很简单，没说什么问题

新的问题产生了，进口非特化妆品备案管理

虽然同样为post请求，但是postman给出的response却是error，尝试传入参数来解决，发现postman的bug

尝试直接在代码中传入参数，发送post请求，传入headers和params，得到了JSON格式的响应
同时，在敲代码过程中，发现了数据动态更新，每天都会有批量数据的传入，所以翻页问题要传入动态参数，通过先发送post请求得到page参数

# -*- coding: utf-8 -*-
# 进口非特殊用途化妆品备案信息-备案详情
from seleniumrequests import Chrome
import json
from selenium import webdriver
import re
from gjypjd.utils import *


def main():
    option = None
    mysql_db = DataBase()
    # 配置文件中开启是否无头，生产阶段关闭
    if if_headless():
        option = webdriver.ChromeOptions()
        option.add_argument(argument='headless')
        option.add_argument('--no-sandbox')


    browser = Chrome(chrome_options=option)
    url_1 = 'http://cpnp.nmpa.gov.cn/province/webquery/wq.do?method=query&querytype=productname&pfid=&content=&dataPage=0&perPage=15&allRows=8084&order='
    response = browser.request('post', url_1)
    response1 = json.loads(response.content)['pageBean']
    page = response1['allPage']
    browser.close()


    for i in range(0, page):
        browser = Chrome(chrome_options=option)
        url_1='http://cpnp.nmpa.gov.cn/province/webquery/wq.do?method=query&querytype=productname&pfid=&content=&dataPage='+str(i)+'&allPage=539&perPage=15&allRows=8084&order='
        res1 = browser.request('post', url_1)
        res1= json.loads(res1.content)['list']
        browser.close()
        for j in range(len(res1)):
            browser = Chrome(chrome_options=option)
            url_2='http://cpnp.nmpa.gov.cn/province/webquery/wq.do?'
            params = {'method': 'show','id':res1[j]['id']}
            headers={
                    'Accept':'application/json, text/javascript, */*; q=0.01',
                    'Accept-Encoding':'gzip, deflate',
                    'Accept-Language':'zh-CN,zh;q=0.9',
                    'Connection':'keep-alive',
                    'Content-Length': '31',
                    'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
                    'Cookie':'_gscu_515232071=60234697wnhvr115; _gscbrs_515232071=1; JSESSIONID=DA4CEE8CEE0F521678039F251D0A32AD',
                    'Host':'cpnp.nmpa.gov.cn',
                    'Origin':'http://cpnp.nmpa.gov.cn',
                    'Referer':'http://cpnp.nmpa.gov.cn/province/webquery/show.jsp?id=50BF34D2A36759BA',
                    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36',
                    'X-Requested-With':'XMLHttpRequest'
                    }
            res2 = browser.request('post', url_2, data=params, headers=headers)
            browser.close()
            sql = "insert into t_jkftsythzpbaxx_baxq(c_bh, dt_insertTime, c_url, b_content, c_json,c_page) VALUES (REPLACE(UUID(),\"-\",\"\"), sysdate(), %s,%s,%s,%s)"
            mysql_db.exetcute_sql(sql, [url_2, res2.text, parse(json.loads(res2.text)),
                                        str(i+1) + '_' + str(j+1)])

def parse(dic):
    """
    产品名称cpmc
    产品英文名称cpywm
    备案编号babh
    备案日期barq
    生产企业名称（中文）scqymc_zw
    生产企业名称（英文）scqymc_yw
    生产企业地址scqydz
    境内负责人名称jnfzrmc
    境内负责人地址jnfzrdz
    生产国（地区）scg_dq
    进口省份jksf
    成分cf
    备注bz
    备案资料核查bazlsc
    历史ls
    技术要求jsyq
    产品设计包装平面图cpsjbzpmt
    产品中文标签cpzwbq
    产品上市包装立体图cpssbzltt
    """
    s = re.findall('id=([0-9|A-Z]{16})', dic['preview'])
    reg_dict = dict()
    reg_dict['cpmc'] = dic['productname']
    reg_dict['cpywm'] = dic['productnameen']
    reg_dict['babh'] = dic['passno']
    reg_dict['barq'] = dic['passdate']
    reg_dict['scqymc_zw'] = dic['enterprise']
    reg_dict['scqymc_yw'] = dic['enterpriseen']
    reg_dict['scqydz'] = dic['enterpriseaddressen']
    reg_dict['jnfzrmc'] = dic['internalunitname']
    reg_dict['jnfzrdz'] = dic['internalunitaddr']
    reg_dict['scg_dq'] = dic['Country']
    reg_dict['jksf'] = dic['jksf']
    reg_dict['cf'] = dic['cf']
    reg_dict['bz'] = dic['memo']
    reg_dict['bazlsc'] = dic['CheckupResult']
    reg_dict['ls'] = dic['hisList']
    reg_dict['jsyq'] = 'http://cpnp.nmpa.gov.cn/province/webquery/wq.do?method=jsyq&id='+s[0]
    reg_dict['cpsjbzpmt'] = 'http://cpnp.nmpa.gov.cn/province/webquery/preview.jsp?id='+s[1]
    reg_dict['cpzwbq'] = 'http://cpnp.nmpa.gov.cn/province/webquery/preview.jsp?id='+s[2]
    reg_dict['cpssbzltt'] = 'http://cpnp.nmpa.gov.cn/province/webquery/preview.jsp?id='+s[3]

    return json.dumps(reg_dict, ensure_ascii=False)


if __name__ == '__main__':
    main()

基本项目到此真的结束，剩下的就是根据需求反馈，调整未得到的数据，做一个一段时间的维护

Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
Python爬虫【三十五章】爬虫高阶：基于Docker集群的动态页面自动化采集系统实战程序员_CLUB Python入门到进阶 python 爬虫 docker
目录一、技术演进与行业痛点二、核心技术栈深度解析2.1动态渲染三件套2.2Docker集群架构设计2.3自动化调度系统三、进阶实战案例3.1电商价格监控系统1.技术指标对比2.实现细节3.2新闻聚合平台1.WebSocket监控2.字体反爬破解四、性能优化与运维方案4.1资源消耗对比测试4.2集群运维体系五、总结与未来展望六、Python爬虫相关文章（推荐）一、技术演进与行业痛点在Web3.0时代
Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战
目录引言一、动态页面爬取的技术背景1.1动态页面的核心特征1.2传统爬虫的局限性二、技术选型与架构设计2.1核心组件分析2.2架构设计思路1.分层处理2.数据流三、代码实现与关键技术3.1Selenium与Scrapy的中间件集成3.2BeautifulSoup与ScrapyItem的整合3.3分布式爬取实现3.3.1Scrapy-Redis部署3.3.2多节点启动四、优化与扩展4.1性能优化策略
Python爬虫【三十三章】爬虫高阶：动态页面破解与验证码OCR识别全流程实战程序员_CLUB Python入门到进阶 python 爬虫 ocr
目录一、技术背景与行业痛点二、核心技术与实现路径2.1动态页面处理方案对比2.2Selenium深度集成实践2.3OCR验证码破解方案1.预处理阶段：2.识别阶段：3.后处理阶段三、典型应用场景解析3.1电商价格监控系统1.技术架构2.实现效果3.2社交媒体舆情分析1.特殊挑战2.优化方案：四、合规性与风险控制五、总结Python爬虫相关文章（推荐）一、技术背景与行业痛点在Web3.0时代，网站反
Python爬虫【三十四章】爬虫高阶：动态页面处理与Playwright增强控制深度解析程序员_CLUB Python入门到进阶 python 爬虫开发语言
目录一、技术演进背景与行业挑战二、核心技术栈深度解析2.1动态渲染双引擎架构2.2浏览器指纹伪装方案2.3BeautifulSoup集成实践三、进阶应用场景突破3.1电商价格监控系统3.1.1技术架构创新3.1.2实现效果3.2社交媒体舆情分析3.2.1无限滚动模拟3.2.2WebSocket监控3.2.3Canvas指纹防护四、性能优化与合规方案4.1资源消耗对比测试4.2反爬对抗升级方案五、总
Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战
目录引言一、动态页面爬取的技术挑战1.1动态页面的核心特性1.2传统爬虫的局限性二、Scrapy+Selenium：动态爬虫的核心架构2.1技术选型依据2.2架构设计2.3代码实现示例三、Celery：分布式任务队列的引入3.1为什么需要Celery？3.2Celery架构设计3.3代码实现示例3.4Scrapy与Celery的集成四、优化与扩展4.1性能优化4.2分布式部署4.3反爬对抗五、总结
十年爬虫经验告诉你爬虫被封怎么办 congqian8750 爬虫
十年爬虫经验告诉你爬虫被封怎么办现在很多站长都会有抓取数据的需求，因此网络爬虫在一定程度上越来越火爆，其实爬虫的基本功能很简单，就是分析大量的url的html页面，从而提取新的url，但是在实际操作中通常都会遇到各种各样的问题，比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行；或者说为了能正常爬取，减少别人服务器的压力，你需要控制住爬取的速度和工作量···但是即便再小心，很多时候也会遇到
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博文章数据可视化分析-文章分类下拉框实现 java1234_小锋 NLP NLLP微博舆情分析 python 自然语言处理 flask
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解微博文章数据可视化分析-文章分类下拉框实现视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更
Scrapy 爬虫 IP 被封问题的解决方案杨胜增 scrapy 爬虫 tcp/ip
Scrapy爬虫IP被封问题的解决方案在使用Scrapy进行网络爬虫开发时，IP被封是一个常见的问题。当爬虫频繁地向目标网站发送请求时，目标网站可能会检测到异常流量，并将爬虫的IP地址加入黑名单，导致后续请求无法正常访问。本文将详细介绍Scrapy爬虫IP被封问题的原因及解决方案。问题描述在运行Scrapy爬虫时，可能会遇到以下类似的情况：请求返回403Forbidden错误，表示服务器拒绝了请求
Python requests设置代理的3种方法爱睡觉的圈圈代理服务 python 网络开发语言代理模式
在进行网络爬虫或数据采集时，经常需要使用代理来避免IP被封或突破访问限制。本文介绍Pythonrequests库设置代理的3种常用方法。方法一：基础代理设置最简单的代理设置方式：importrequests#设置代理proxies={'http':'http://proxy_ip:port','https':'https://proxy_ip:port'}#发送请求response=request
代理IP的类型详解：数据中心vs住宅IP
前言做爬虫的时候，代理IP是绕不开的话题。但很多人对代理IP的分类不太了解，经常花了钱却买到不合适的代理，结果还是被封。今天详细聊聊代理IP的分类，特别是数据中心IP和住宅IP的区别，帮你选到最适合的代理。代理IP基础分类按协议分类HTTP代理#只支持HTTP协议proxy={'http':'http://username:[email protected]:8080'}HTTPS代理#支持HT
如何避免IP被加入黑名单：实用防护指南爱睡觉的圈圈代理服务 tcp/ip 网络协议网络
前言IP被封是爬虫开发者最头疼的问题。很多人以为换个User-Agent就能解决，结果还是被秒封。现代反爬虫系统已经非常智能，不仅看IP访问频率，还会分析浏览器指纹、行为模式、TLS指纹等多个维度。要想真正避免被封，需要从多个角度进行防护。今天分享一套完整的IP保护方案，结合Selenium、指纹浏览器等成熟工具，让你的爬虫更像真实用户。反爬虫检测原理网站如何识别爬虫#现代反爬虫系统的检测维度de
爬虫入门：为什么你的爬虫需要代理IP？
前言作为一名在爬虫领域摸爬滚打多年的程序员，我经常收到新手朋友的疑问："为什么我的爬虫跑了一会儿就不工作了？"今天，我就来详细讲解为什么爬虫需要代理IP，以及如何正确使用代理IP来提升爬虫的稳定性和效率。一、爬虫面临的挑战1.1反爬虫机制的普及现代网站都配备了各种反爬虫机制，最常见的包括：反爬虫机制IP限制User-Agent检测验证码行为分析请求频率限制1.2IP封禁的痛点让我们看一个典型的爬虫
Python爬虫IP被封的5种解决方案
前言做爬虫的朋友都遇到过这种情况：程序跑得好好的，突然就开始返回403错误，或者直接连接超时。十有八九是IP被网站封了。现在的网站反爬虫越来越严格，稍微频繁一点就会被拉黑。今天分享几个实用的解决方案，都是我在实际项目中用过的。方案一：代理IP池这是最直接的办法，换个马甲继续干活。基本实现importrequestsimportrandomimporttimeclassProxyPool:def__
Python爬虫实战：研究picloud相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 picloud
一、引言1.1研究背景与意义在数字化时代，网络数据已成为企业决策、学术研究和社会服务的重要资源。爬虫技术作为自动化获取网络信息的关键手段，在舆情监测、市场分析、学术研究等领域具有广泛应用。Python以其简洁的语法和丰富的爬虫库（如Requests、BeautifulSoup、Scrapy）成为爬虫开发的首选语言。然而，面对海量数据和高并发需求，本地爬虫系统往往面临性能瓶颈。picloud作为专业
Python爬虫实战：研究flanker相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 flanker
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信
Python爬虫实战入门：手把手教你抓取豆瓣电影TOP250 xiaobindeshijie7 python 爬虫开发语言其他
文章目录一、环境准备（5分钟搞定）二、第一个爬虫实战（超简单版）2.1基础版代码2.2代码解剖（新人必看）三、突破反爬机制（实战精华）3.1伪装大法3.2请求频率控制3.3代理IP使用四、数据存储（多种姿势）4.1CSV存储4.2MySQL存储五、进阶技巧（高手必备）5.1异步爬虫5.2Selenium动态渲染六、法律与伦理（超级重要！！！）七、下一步学习路线一、环境准备（5分钟搞定）工欲善其事必
BeautifulSoup库深度解析：Python高效解析网页数据的秘籍
在Python爬虫开发领域，获取网页内容后，如何高效解析并提取所需数据是关键一环。BeautifulSoup库凭借其简洁易用、功能强大的特点，成为众多开发者解析网页数据的首选工具。本文将深入剖析BeautifulSoup库，通过丰富的实例，帮助你掌握其核心功能与使用技巧，实现网页数据的精准提取。一、认识BeautifulSoup库BeautifulSoup是Python的一个第三方库，主要用于解析
Python BeautifulSoup 解析网页按钮元素 PythonAI编程架构实战家 Python人工智能与大数据 Python编程之道 python beautifulsoup 开发语言 ai
PythonBeautifulSoup解析网页按钮元素：从基础原理到工程实践的深度解析关键词BeautifulSoup、HTML解析、按钮元素定位、DOM树遍历、CSS选择器、网络爬虫、前端自动化摘要本文系统解析使用PythonBeautifulSoup库定位和提取网页按钮元素的全流程技术方案。从HTML文档的底层结构出发，结合BeautifulSoup的核心解析机制，覆盖从基础概念到高级工程实践
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
XPath class心平气和服务器前端运维
一、XPath基础概念XPath（XMLPathLanguage）是一种用于在XML或HTML文档中定位节点的语言，广泛应用于网页爬虫、数据提取和文档处理。以下将从基础概念到高级技巧全面解析XPath。XPath是一种路径表达式语言，用于在XML/HTML文档中导航和选择节点。二、XPath路径表达式基础1.绝对路径与相对路径绝对路径：从根节点开始，用/分隔，例：/html/body/div#从H
让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验脑袋大大的 uniappx生态专栏前端 javascript vue.js uniapp uniappx
你有没有遇到过这样的尴尬？用户打开你的UniApp项目，首屏白屏几秒钟，用户还没看到内容就走了。尤其是在SEO场景下，搜索引擎爬虫来了，你却只能返回一个“加载中…”的页面，结果自然是——被搜索引擎无情抛弃。但好消息是，从HBuilderX4.18版本起，UniAppX正式支持SSR（ServerSideRendering）服务器端渲染，这意味着你可以让你的UniApp应用“首屏即内容”，秒开页面、
程序代码篇---python获取http界面上按钮或者数据输入 Atticus-Orion 程序代码篇 python http 开发语言
在Python中获取HTTP界面上的按钮点击或数据输入，主要有两种场景：作为客户端：模拟用户在网页上输入数据、点击按钮（比如爬虫自动提交表单）。作为服务端：搭建一个网页服务，接收用户在浏览器中输入的数据和按钮点击（比如自己写一个简单的Web应用）。下面分别用通俗易懂的方式讲解这两种场景的实现方法和代码。一、作为客户端：模拟用户操作网页（自动输入和点击）这种场景常用于自动化测试或数据爬取，需要模拟用
selenium 反爬虫识别特征处理
因为业务中发现网站对selenium特征识别为爬虫了，因此在搜索引擎中搜索进行处理方式一#实例化一个浏览器对象options=webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches',['enable-automation'])ifsys.platform=="win32":browser=webdrive
selenium之反反爬虫无惧代码爬虫 python selenium 爬虫
大多数情况下，检测的基本原理是检测当前浏览器窗口下的window.navigator对象是否包含webdriver这个属性。在正常使用浏览器的情况下，这个属性是undefined，然后一旦我们使用了selenium，这个属性就被初始化为true，很多网站就通过Javascript判断这个属性实现简单的反selenium爬虫。反反爬虫解决措施：fromseleniumimportwebdriverf
爬虫入门（7）——反爬（3）Selenium WHJ226 爬虫入门爬虫 selenium python
目录1Selenium定位方法1.1id定位1.2name定位1.3XPath定位1.4classname定位2模拟操作2.1模拟点击操作2.2模拟输入和搜索操作2.3模拟清除3控制浏览器操作3.1设置浏览器尺寸3.2控制浏览器后退和前进3.3刷新页面爬虫入门（6）——反爬（2）_WHJ226的博客-CSDN博客在该博客-CSDN博客博客中讲了动态渲染，Selenium安装，驱动器下载及配置，以及
Python爬虫“折戟”真相大揭秘：数据获取失败全剖析
爬虫数据获取：理想与现实的落差**在数据驱动的时代，数据宛如一座蕴藏无限价值的宝藏矿山，而Python爬虫则是我们深入矿山挖掘宝藏的得力工具。想象一下，你精心编写了一段Python爬虫代码，满心期待着它能像勤劳的矿工一样，源源不断地从网页中采集到你所需要的数据。当一切准备就绪，代码开始运行，那跳动的进度条仿佛是希望的脉搏。有时候现实却给我们泼了一盆冷水。原本期待着收获满满一桶数据，结果得到的却是寥
Python爬虫打怪升级：数据获取疑难全解析女码农的重启 python 爬虫开发语言
一、引言**在大数据时代，数据就是价值的源泉。而Python爬虫，作为数据获取的得力助手，凭借Python简洁的语法和丰富强大的库，在众多领域发挥着重要作用。无论是电商领域的价格监测、市场调研中的数据收集，还是学术研究里的文献获取，Python爬虫都能大显身手。例如，通过爬取电商平台的商品信息，我们可以分析市场趋势，为企业决策提供有力支持；在学术研究中，利用爬虫获取大量文献资料，能帮助研究人员快速
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam