luoz_python

爬虫实战（二）—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解

概述

可关注微信订阅号 loak 查看实际效果。

代码已托管github，地址为：https://github.com/luozhengszj/LOLGokSpider ，包括了项目的所有代码。

本文主要介绍以下内容：

使用selenium 和 requests爬取王者荣耀官网、王者营地APP数据，使用BeautifulSoup和正则进行数据解析；
爬取的IP代理使用了redis搭建的代理池；
数据通过pymongo保存到Mongodb中，并且通过提供接口进行数据的查询与显示；
项目运行日志记录功能logging；
centos服务器的定时任务；
数据的查询与显示可通过订阅号进行方便的查询。

爬虫实现

跟上一篇博文类似，我们想要爬取某些数据，同样首先要分析网站、APP程序的页面，确定要爬取的元素->分析网站及元素的加载->抓取数据

确定爬取的元素
我们百度搜索王者荣耀，进入其官网，可以发现有一个下拉选项“英雄资料”，地址为：https://pvp.qq.com/web201605/herolist.shtmlweb201605/herolist.shtml ，在这里我们可以看到所有英雄。
点击某个英雄，进入详情页面，我们可以发现官网有对该英雄的简介、技能、加点、出装、铭文的推荐。所以我们可以确定这些内容可以从这里进行爬取。再进行分析“王者营地”APP（博主分析时，版本为：3.44.204），选择战绩->游戏工具->英雄榜，我们可以看到该APP对实时数据的显示，主要包括了上下中辅野的热度、胜率、登场率、ban率、技能、出装、铭文、克制、被克制的内容。
通过上面的分析，确定了在王者官网爬取英雄的铭文、出装、技能，在王者营地APP爬取热度、胜率、登场率、ban率、克制、被克制
分析网站及元素的加载
- 王者荣耀官网的数据
  王者荣耀官网的英雄列表：https://pvp.qq.com/web201605/herolist.shtml ，可以直接通过requests进行获取。
  至于英雄的详细页面，例如曜：https://pvp.qq.com/web201605/herodetail/522.shtml ，分析页面我们可以发现，其实页面的大多数信息都是可以直接使用requsts进行请求获取，但是通过分析发现，出装的推荐，是通过ajax进行动态加载的，为了简单，直接采用了selenium进行操作了
- 王者营地
  王者营地app的数据抓取，我们首先要安装fiddler，通过桌面的fiddler的证书，安装到手机与电脑同一wifi的证书中，并进行代理的设置，及可以通过fiddler分析请求。具体操作可以看我之前写过的博客：https://blog.csdn.net/luoz_java/article/details/90340115 ，里面介绍有详细的操作步骤。
  设置完成后，打开APP，进入战绩->游戏工具->英雄榜，分析fiddler显示的请求：
  https://ssl.kohsocialapp.qq.com:10001/hero/getdetailranklistbyid ，返回的json数据包含了热度、胜率、登场率、ban率；
  https://ssl.kohsocialapp.qq.com:10001/hero/getheroextrainfo ，返回的json数据包含了克制、被克制等信息。

抓取数据
通过以上的分析，我们直接可以编写代码了。为了简单，王者荣耀官网数据的抓取，直接使用chrome selenium，而王者营地的则采用request模块。
官网爬取某一英雄详细信息：

def get_one_hero_detail(hero_url, gok_hero):
   proxy = get_proxy()
   chrome_options.add_argument('--proxy-server=http://' + proxy)
   browser.get(hero_url)

   tmp1 = wait.until(
       EC.presence_of_element_located(
           (By.XPATH, '/html/body/div[3]/div[2]/div/div[2]/div[1]/div[2]/p[1]/span'))).text
   tmp2 = browser.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[2]/div[1]/div[2]/p[3]/span').text
   gok_hero.skill = ['主：' + tmp1, '副：' + tmp2]

   zh_skill = browser.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[2]/div[1]/div[2]/p[5]/span').text
   gok_hero.zh_skill = zh_skill

   mingwen1 = browser.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[3]/div[2]/ul/li[1]/p[1]/em').text
   mingwen2 = browser.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[3]/div[2]/ul/li[2]/p[1]/em').text
   mingwen3 = browser.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[3]/div[2]/ul/li[3]/p[1]/em').text
   gok_hero.mingwen = [mingwen1, mingwen2, mingwen3]

   browser.implicitly_wait(5)
   builds = browser.find_elements_by_xpath('//*[@id="Jname"]')
   list_tmp = []
   for item in builds:
       list_tmp.append(item.get_attribute("innerHTML"))
   gok_hero.first_build = list_tmp[:6]
   gok_hero.second_build = list_tmp[6:12]

   time.sleep(1)
   return gok_hero

王者营地APP根据位置爬取数据及解析的代码：

all_hero_msg = []


def get_hero_rank(lu):
    retry_count = 5
    proxy = get_proxy()
    while retry_count > 0:
        try:
            # 获取英雄列表
            proxies = {
                "http": "http://" + proxy
            }
            data_tmp = gok_interface_log['post_data_20190623']
            data_tmp.update({'position': lu})
            herohtml = requests.post(url=gok_interface_log['post_url_20190623'],
                                     data=data_tmp,
                                     proxies=proxies).text
            return herohtml
        except urllib.error.URLError as e:
            if isinstance(e.reason, socket.timeout):
                retry_count -= 1
                if retry_count == 2:
                    # 出错3次, 删除代理池中代理
                    delete_proxy(proxy)
                    proxy = get_proxy()
        except Exception as e:
            log.logger.error('get_hero_rank爬取失败！' + str(e)+lu)
            if retry_count == 3:
                delete_proxy(proxy)
                proxy = get_proxy()
    return None


def parse_hero_rank(rank_data, version, position):
    rank_data = ast.literal_eval(rank_data)
    hero_rank_list = str(rank_data.get('data').get('list'))[1:-1]
    hero_items = ast.literal_eval(hero_rank_list)
    for item in hero_items:
        gok = GokClass()
        gok.version = version
        gok.day = gok_config['GOK_INSERT_TIME']
        gok.heroid = item['heroId']
        gok.heroname = item['heroInfo'][0]['heroName']
        gok.herotype = position  # 英雄走哪路
        gok.herotypename = item['heroInfo'][0]['heroCareer']
        gok.tRank = item['tRank']
        gok.winpercent = item['winRate']
        gok.gameactpercnt = item['showRate']
        gok.banRate = item['banRate']
        all_hero_msg.append(gok)

为了不报错，请各位还是直接查看仓库的完整代码吧~~

redis维护IP代理池

可以查看上一篇博文，里面有完整的操作。https://blog.csdn.net/luoz_java/article/details/92741358

pymongo

mongodb的可视化，我发现了一款很好的工具，就是 robo3t ，百度搜索即可，免费版的。
官网地址：https://docs.mongodb.com/
pymongo的操作主要为以下内容：

创建集合

 #!/usr/bin/python3
  
 import pymongo
  
 client = pymongo.MongoClient(mongo_config['MONGO_URL'])
 db = client[mongo_config['MONGO_DB']]

在 MongoDB 中，集合只有在内容插入后才会创建! 就是说，创建集合(数据表)后要再插入一个文档(记录)，集合才会真正创建。

判断集合是否已存在

 #!/usr/bin/python3
  
 import pymongo
  
 client = pymongo.MongoClient(mongo_config['MONGO_URL'])
 db = client[mongo_config['MONGO_DB']]
 collist = db. list_collection_names()
 if "sites" in collist:   # 判断 sites 集合是否存在
   print("集合已存在！")

插入集合

insert_one()

#!/usr/bin/python3
 
import pymongo
 
client = pymongo.MongoClient(mongo_config['MONGO_URL'])
db = client[mongo_config['MONGO_DB']]
search_set = db[mongo_config['USER_FIND_TYPE']]
tmp = search_set.insert_one({'user_id': user_id, 'game_type': type})
# insert_one() 方法返回 InsertOneResult 对象，该对象包含 inserted_id 属性，它是插入文档的 id 值。
print(tmp.inserted_id) # 5b2369cac315325f3698a1cf
if tmp:
    return 'success'
return None

insert_many()

#!/usr/bin/python3
 
import pymongo
 
client = pymongo.MongoClient(mongo_config['MONGO_URL'])
db = client[mongo_config['MONGO_DB']]
    search_set = db[mongo_config['USER_FIND_TYPE']]
    mylist = [
  { "name": "Taobao", "alexa": "100", "url": "https://www.taobao.com" },
  { "name": "QQ", "alexa": "101", "url": "https://www.qq.com" },
  { "name": "Facebook", "alexa": "10", "url": "https://www.facebook.com" },
  { "name": "知乎", "alexa": "103", "url": "https://www.zhihu.com" },
  { "name": "Github", "alexa": "109", "url": "https://www.github.com" }
	]
 
x = search_set.insert_many(mylist)
	 
# 输出插入的所有文档对应的 _id 值
print(x.inserted_ids)
# [ObjectId('5b236aa9c315325f5236bbb6'), ObjectId('5b236aa9c315325f5236bbb7'), ObjectId('5b236aa9c315325f5236bbb8'), ObjectId('5b236aa9c315325f5236bbb9'), ObjectId('5b236aa9c315325f5236bbba')]
# insert_many() 方法返回 InsertManyResult 对象，该对象包含 inserted_ids 属性，该属性保存着所有插入文档的 id 值。

插入指定 _id 的多个文档

#!/usr/bin/python3
 
import pymongo
 
client = pymongo.MongoClient(mongo_config['MONGO_URL'])
db = client[mongo_config['MONGO_DB']]
search_set = db[mongo_config['USER_FIND_TYPE']]
    mylist = [
	  { "_id": 1, "name": "RUNOOB", "cn_name": "菜鸟教程"},
	  { "_id": 2, "name": "Google", "address": "Google 搜索"},
	  { "_id": 3, "name": "Facebook", "address": "脸书"},
	  { "_id": 4, "name": "Taobao", "address": "淘宝"},
	  { "_id": 5, "name": "Zhihu", "address": "知乎"}
	]
	 
x = mycol.insert_many(mylist)
	 
# 输出插入的所有文档对应的 _id 值
print(x.inserted_ids)
# [1, 2, 3, 4, 5]

查询

find_one()
find()
查询指定字段的数据
根据指定条件查询

#!/usr/bin/python3
 
import pymongo
 
client = pymongo.MongoClient(mongo_config['MONGO_URL'])
db = client[mongo_config['MONGO_DB']]
mycol = mydb[mongo_config['USER_FIND_TYPE']]

x = mycol.find_one()

list_col = mycol.find()

# 将要返回的字段对应值设置为 1
# 除了 _id 你不能在一个对象中同时指定 0 和 1，如果你设置了一个字段为 0，则其他都为 1，反之亦然。
for x in mycol.find({},{ "_id": 0, "name": 1, "alexa": 1 }):
	print(x)

# 同时指定了 0 和 1 则会报错
for x in mycol.find({},{ "name": 1, "alexa": 0 }):
	print(x)

# 根据条件查找
mydoc = mycol.find_one({'user_id': user_id, 'game_type': type})

高级查询
与或非，与不用说了。下面说或、非
limit()
排序

#!/usr/bin/python3
 
import pymongo
 
client = pymongo.MongoClient(mongo_config['MONGO_URL'])
db = client[mongo_config['MONGO_DB']]
mycol = mydb[mongo_config['USER_FIND_TYPE']]

# 或
x = mycol.find_one({"$or": [{"name": hero_another_name}, {"another1": hero_another_name}]})

# 非
# 读取 name 字段中第一个字母为 "R" 的数据，正则表达式修饰符条件为 {"$regex": "^R"} :
x = mycol.find({ "name": { "$regex": "^R" } })

# $in，常用于判断列表name是否存在luozheng元素
x = mycol.find_one({"name": {'$in':['luozheng']}})

# $regex，也可以写正则
# 适用于匹配，如果字段a的值为'abc',如果我们想知道name的值是否包含‘b’，可以这样做find({'name':{'$regex':'b'}})
x = mycol.find_one({"name": {'$regex':['luo']}})


# limit()
myresult = mycol.find().limit(3)

# 同时指定了 0 和 1 则会报错
for x in mycol.find({},{ "name": 1, "alexa": 0 }):
	print(x)

# sort  升序：pymongo.ASCENDING ( 1 ) 、 降序：pymongo.DESCENDING ( -1 )
mydoc = mycol.sort([("field1",pymongo.ASCENDING), ("field2",pymongo.DESCENDING)])

更新
update_one()
update_many()

#!/usr/bin/python3
 
import pymongo
 
client = pymongo.MongoClient(mongo_config['MONGO_URL'])
db = client[mongo_config['MONGO_DB']]
mycol = mydb[mongo_config['USER_FIND_TYPE']]

# update_one 该方法第一个参数为查询的条件，第二个参数为要修改的字段。
mycol.update_one({ "alexa": "10000" }, { "$set": { "alexa": "12345" } })

# 实例将查找所有以 F 开头的 name 字段，并将匹配到所有记录的 alexa 字段修改为 123：
myquery = { "name": { "$regex": "^F" } }
newvalues = { "$set": { "alexa": "123" } }
 
x = mycol.update_many(myquery, newvalues)

删除
delete_one()
delete_many()
drop()

#!/usr/bin/python3
 
import pymongo
 
client = pymongo.MongoClient(mongo_config['MONGO_URL'])
db = client[mongo_config['MONGO_DB']]
mycol = mydb[mongo_config['USER_FIND_TYPE']]

# delete_one
mycol.delete_one({ "name": "Taobao" })

# delete_many
myquery = { "name": {"$regex": "^F"} }

x = mycol.delete_many(myquery)

# delete_many() 方法如果传入的是一个空的查询对象，则会删除集合中的所有文档
x = mycol.delete_many({})

# 删除集合
# 如果删除成功 drop() 返回 true，如果删除失败(集合不存在)则返回 false。
mycol.drop()

日志记录功能

参照博文： https://www.cnblogs.com/nancyzhu/p/8551506.html

介绍
logging提供了一组便利的函数，用来做简单的日志。它们是 debug()、 info()、 warning()、 error() 和 critical()。

默认等级是WARNING，这意味着仅仅这个等级及以上的才会反馈信息，除非logging模块被用来做其它事情。
logging函数根据它们用来跟踪的事件的级别或严重程度来命名。标准级别及其适用性描述如下（以严重程度递增排序）：

级别	何时使用
DEBUG	详细信息，一般只在调试问题时使用。
INFO	证明事情按预期工作。
WARNING	某些没有预料到的事件的提示，或者在将来可能会出现的问题提示。例如：磁盘空间不足。但是软件还是会照常运行。
ERROR	由于更严重的问题，软件已不能执行一些功能了。
CRITICAL	严重错误，表明软件已不能继续运行了。

代码实例

import logging
from logging import handlers

class Logger(object):
 level_relations = {
     'debug':logging.DEBUG,
     'info':logging.INFO,
     'warning':logging.WARNING,
     'error':logging.ERROR,
     'crit':logging.CRITICAL
 }#日志级别关系映射

 def __init__(self,filename,level='info',when='D',backCount=3,fmt='%(asctime)s - %(pathname)s[line:%(lineno)d] - %(levelname)s: %(message)s'):
     self.logger = logging.getLogger(filename)
     format_str = logging.Formatter(fmt)#设置日志格式
     self.logger.setLevel(self.level_relations.get(level))#设置日志级别
     sh = logging.StreamHandler()#往屏幕上输出
     sh.setFormatter(format_str) #设置屏幕上显示的格式
     th = handlers.TimedRotatingFileHandler(filename=filename,when=when,backupCount=backCount,encoding='utf-8')#往文件里写入#指定间隔时间自动生成文件的处理器
     #实例化TimedRotatingFileHandler
     #interval是时间间隔，backupCount是备份文件的个数，如果超过这个个数，就会自动删除，when是间隔的时间单位，单位有以下几种：
     # S 秒
     # M 分
     # H 小时、
     # D 天、
     # W 每星期（interval==0时代表星期一）
     # midnight 每天凌晨
     th.setFormatter(format_str)#设置文件里写入的格式
     self.logger.addHandler(sh) #把对象加到logger里
     self.logger.addHandler(th)
if __name__ == '__main__':
 log = Logger('all.log',level='debug')
 log.logger.debug('debug')
 log.logger.info('info')
 log.logger.warning('警告')
 log.logger.error('报错')
 log.logger.critical('严重')
 Logger('error.log', level='error').logger.error('error')

centos服务器的定时任务

编辑定时任务：crontab -e
查看定时任务：crontab -l
如果是命令需要先后执行，可以使用 &&
如果是后台运行并且多命令，记得先运行命令在nohup。
例如以下是先杀进行，在启动进程：

  #定时重启服务
  2 0 * * * ps -ef | grep wxWeb.py | grep -v grep | awk '{print $2}' | xargs kill -9
  4 0 * * * cd /home/LOLGokSpider/Web && nohup /home/LOLGokEnv/bin/python /home/LOLGokSpider/Web/wxWeb.py > /home/LOLGokSpider/Web/wxRun.log 2>&1 &

个人博客：Loak 正 - 关注人工智能及互联网的个人博客
文章地址：爬虫实战（二）—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解

Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
Python爬虫【三十五章】爬虫高阶：基于Docker集群的动态页面自动化采集系统实战程序员_CLUB Python入门到进阶 python 爬虫 docker
目录一、技术演进与行业痛点二、核心技术栈深度解析2.1动态渲染三件套2.2Docker集群架构设计2.3自动化调度系统三、进阶实战案例3.1电商价格监控系统1.技术指标对比2.实现细节3.2新闻聚合平台1.WebSocket监控2.字体反爬破解四、性能优化与运维方案4.1资源消耗对比测试4.2集群运维体系五、总结与未来展望六、Python爬虫相关文章（推荐）一、技术演进与行业痛点在Web3.0时代
Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战
目录引言一、动态页面爬取的技术背景1.1动态页面的核心特征1.2传统爬虫的局限性二、技术选型与架构设计2.1核心组件分析2.2架构设计思路1.分层处理2.数据流三、代码实现与关键技术3.1Selenium与Scrapy的中间件集成3.2BeautifulSoup与ScrapyItem的整合3.3分布式爬取实现3.3.1Scrapy-Redis部署3.3.2多节点启动四、优化与扩展4.1性能优化策略
Python爬虫【三十三章】爬虫高阶：动态页面破解与验证码OCR识别全流程实战程序员_CLUB Python入门到进阶 python 爬虫 ocr
目录一、技术背景与行业痛点二、核心技术与实现路径2.1动态页面处理方案对比2.2Selenium深度集成实践2.3OCR验证码破解方案1.预处理阶段：2.识别阶段：3.后处理阶段三、典型应用场景解析3.1电商价格监控系统1.技术架构2.实现效果3.2社交媒体舆情分析1.特殊挑战2.优化方案：四、合规性与风险控制五、总结Python爬虫相关文章（推荐）一、技术背景与行业痛点在Web3.0时代，网站反
Python爬虫【三十四章】爬虫高阶：动态页面处理与Playwright增强控制深度解析程序员_CLUB Python入门到进阶 python 爬虫开发语言
目录一、技术演进背景与行业挑战二、核心技术栈深度解析2.1动态渲染双引擎架构2.2浏览器指纹伪装方案2.3BeautifulSoup集成实践三、进阶应用场景突破3.1电商价格监控系统3.1.1技术架构创新3.1.2实现效果3.2社交媒体舆情分析3.2.1无限滚动模拟3.2.2WebSocket监控3.2.3Canvas指纹防护四、性能优化与合规方案4.1资源消耗对比测试4.2反爬对抗升级方案五、总
Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战
目录引言一、动态页面爬取的技术挑战1.1动态页面的核心特性1.2传统爬虫的局限性二、Scrapy+Selenium：动态爬虫的核心架构2.1技术选型依据2.2架构设计2.3代码实现示例三、Celery：分布式任务队列的引入3.1为什么需要Celery？3.2Celery架构设计3.3代码实现示例3.4Scrapy与Celery的集成四、优化与扩展4.1性能优化4.2分布式部署4.3反爬对抗五、总结
十年爬虫经验告诉你爬虫被封怎么办 congqian8750 爬虫
十年爬虫经验告诉你爬虫被封怎么办现在很多站长都会有抓取数据的需求，因此网络爬虫在一定程度上越来越火爆，其实爬虫的基本功能很简单，就是分析大量的url的html页面，从而提取新的url，但是在实际操作中通常都会遇到各种各样的问题，比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行；或者说为了能正常爬取，减少别人服务器的压力，你需要控制住爬取的速度和工作量···但是即便再小心，很多时候也会遇到
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博文章数据可视化分析-文章分类下拉框实现 java1234_小锋 NLP NLLP微博舆情分析 python 自然语言处理 flask
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解微博文章数据可视化分析-文章分类下拉框实现视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更
Scrapy 爬虫 IP 被封问题的解决方案杨胜增 scrapy 爬虫 tcp/ip
Scrapy爬虫IP被封问题的解决方案在使用Scrapy进行网络爬虫开发时，IP被封是一个常见的问题。当爬虫频繁地向目标网站发送请求时，目标网站可能会检测到异常流量，并将爬虫的IP地址加入黑名单，导致后续请求无法正常访问。本文将详细介绍Scrapy爬虫IP被封问题的原因及解决方案。问题描述在运行Scrapy爬虫时，可能会遇到以下类似的情况：请求返回403Forbidden错误，表示服务器拒绝了请求
Python requests设置代理的3种方法爱睡觉的圈圈代理服务 python 网络开发语言代理模式
在进行网络爬虫或数据采集时，经常需要使用代理来避免IP被封或突破访问限制。本文介绍Pythonrequests库设置代理的3种常用方法。方法一：基础代理设置最简单的代理设置方式：importrequests#设置代理proxies={'http':'http://proxy_ip:port','https':'https://proxy_ip:port'}#发送请求response=request
代理IP的类型详解：数据中心vs住宅IP
前言做爬虫的时候，代理IP是绕不开的话题。但很多人对代理IP的分类不太了解，经常花了钱却买到不合适的代理，结果还是被封。今天详细聊聊代理IP的分类，特别是数据中心IP和住宅IP的区别，帮你选到最适合的代理。代理IP基础分类按协议分类HTTP代理#只支持HTTP协议proxy={'http':'http://username:[email protected]:8080'}HTTPS代理#支持HT
如何避免IP被加入黑名单：实用防护指南爱睡觉的圈圈代理服务 tcp/ip 网络协议网络
前言IP被封是爬虫开发者最头疼的问题。很多人以为换个User-Agent就能解决，结果还是被秒封。现代反爬虫系统已经非常智能，不仅看IP访问频率，还会分析浏览器指纹、行为模式、TLS指纹等多个维度。要想真正避免被封，需要从多个角度进行防护。今天分享一套完整的IP保护方案，结合Selenium、指纹浏览器等成熟工具，让你的爬虫更像真实用户。反爬虫检测原理网站如何识别爬虫#现代反爬虫系统的检测维度de
爬虫入门：为什么你的爬虫需要代理IP？
前言作为一名在爬虫领域摸爬滚打多年的程序员，我经常收到新手朋友的疑问："为什么我的爬虫跑了一会儿就不工作了？"今天，我就来详细讲解为什么爬虫需要代理IP，以及如何正确使用代理IP来提升爬虫的稳定性和效率。一、爬虫面临的挑战1.1反爬虫机制的普及现代网站都配备了各种反爬虫机制，最常见的包括：反爬虫机制IP限制User-Agent检测验证码行为分析请求频率限制1.2IP封禁的痛点让我们看一个典型的爬虫
Python爬虫IP被封的5种解决方案
前言做爬虫的朋友都遇到过这种情况：程序跑得好好的，突然就开始返回403错误，或者直接连接超时。十有八九是IP被网站封了。现在的网站反爬虫越来越严格，稍微频繁一点就会被拉黑。今天分享几个实用的解决方案，都是我在实际项目中用过的。方案一：代理IP池这是最直接的办法，换个马甲继续干活。基本实现importrequestsimportrandomimporttimeclassProxyPool:def__
Python爬虫实战：研究picloud相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 picloud
一、引言1.1研究背景与意义在数字化时代，网络数据已成为企业决策、学术研究和社会服务的重要资源。爬虫技术作为自动化获取网络信息的关键手段，在舆情监测、市场分析、学术研究等领域具有广泛应用。Python以其简洁的语法和丰富的爬虫库（如Requests、BeautifulSoup、Scrapy）成为爬虫开发的首选语言。然而，面对海量数据和高并发需求，本地爬虫系统往往面临性能瓶颈。picloud作为专业
Python爬虫实战：研究flanker相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 flanker
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信
Python爬虫实战入门：手把手教你抓取豆瓣电影TOP250 xiaobindeshijie7 python 爬虫开发语言其他
文章目录一、环境准备（5分钟搞定）二、第一个爬虫实战（超简单版）2.1基础版代码2.2代码解剖（新人必看）三、突破反爬机制（实战精华）3.1伪装大法3.2请求频率控制3.3代理IP使用四、数据存储（多种姿势）4.1CSV存储4.2MySQL存储五、进阶技巧（高手必备）5.1异步爬虫5.2Selenium动态渲染六、法律与伦理（超级重要！！！）七、下一步学习路线一、环境准备（5分钟搞定）工欲善其事必
BeautifulSoup库深度解析：Python高效解析网页数据的秘籍
在Python爬虫开发领域，获取网页内容后，如何高效解析并提取所需数据是关键一环。BeautifulSoup库凭借其简洁易用、功能强大的特点，成为众多开发者解析网页数据的首选工具。本文将深入剖析BeautifulSoup库，通过丰富的实例，帮助你掌握其核心功能与使用技巧，实现网页数据的精准提取。一、认识BeautifulSoup库BeautifulSoup是Python的一个第三方库，主要用于解析
Python BeautifulSoup 解析网页按钮元素 PythonAI编程架构实战家 Python人工智能与大数据 Python编程之道 python beautifulsoup 开发语言 ai
PythonBeautifulSoup解析网页按钮元素：从基础原理到工程实践的深度解析关键词BeautifulSoup、HTML解析、按钮元素定位、DOM树遍历、CSS选择器、网络爬虫、前端自动化摘要本文系统解析使用PythonBeautifulSoup库定位和提取网页按钮元素的全流程技术方案。从HTML文档的底层结构出发，结合BeautifulSoup的核心解析机制，覆盖从基础概念到高级工程实践
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
XPath class心平气和服务器前端运维
一、XPath基础概念XPath（XMLPathLanguage）是一种用于在XML或HTML文档中定位节点的语言，广泛应用于网页爬虫、数据提取和文档处理。以下将从基础概念到高级技巧全面解析XPath。XPath是一种路径表达式语言，用于在XML/HTML文档中导航和选择节点。二、XPath路径表达式基础1.绝对路径与相对路径绝对路径：从根节点开始，用/分隔，例：/html/body/div#从H
让 UniApp X “飞”起来：用 SSR 实现服务器端渲染，打造首屏秒开体验脑袋大大的 uniappx生态专栏前端 javascript vue.js uniapp uniappx
你有没有遇到过这样的尴尬？用户打开你的UniApp项目，首屏白屏几秒钟，用户还没看到内容就走了。尤其是在SEO场景下，搜索引擎爬虫来了，你却只能返回一个“加载中…”的页面，结果自然是——被搜索引擎无情抛弃。但好消息是，从HBuilderX4.18版本起，UniAppX正式支持SSR（ServerSideRendering）服务器端渲染，这意味着你可以让你的UniApp应用“首屏即内容”，秒开页面、
程序代码篇---python获取http界面上按钮或者数据输入 Atticus-Orion 程序代码篇 python http 开发语言
在Python中获取HTTP界面上的按钮点击或数据输入，主要有两种场景：作为客户端：模拟用户在网页上输入数据、点击按钮（比如爬虫自动提交表单）。作为服务端：搭建一个网页服务，接收用户在浏览器中输入的数据和按钮点击（比如自己写一个简单的Web应用）。下面分别用通俗易懂的方式讲解这两种场景的实现方法和代码。一、作为客户端：模拟用户操作网页（自动输入和点击）这种场景常用于自动化测试或数据爬取，需要模拟用
selenium 反爬虫识别特征处理
因为业务中发现网站对selenium特征识别为爬虫了，因此在搜索引擎中搜索进行处理方式一#实例化一个浏览器对象options=webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches',['enable-automation'])ifsys.platform=="win32":browser=webdrive
selenium之反反爬虫无惧代码爬虫 python selenium 爬虫
大多数情况下，检测的基本原理是检测当前浏览器窗口下的window.navigator对象是否包含webdriver这个属性。在正常使用浏览器的情况下，这个属性是undefined，然后一旦我们使用了selenium，这个属性就被初始化为true，很多网站就通过Javascript判断这个属性实现简单的反selenium爬虫。反反爬虫解决措施：fromseleniumimportwebdriverf
爬虫入门（7）——反爬（3）Selenium WHJ226 爬虫入门爬虫 selenium python
目录1Selenium定位方法1.1id定位1.2name定位1.3XPath定位1.4classname定位2模拟操作2.1模拟点击操作2.2模拟输入和搜索操作2.3模拟清除3控制浏览器操作3.1设置浏览器尺寸3.2控制浏览器后退和前进3.3刷新页面爬虫入门（6）——反爬（2）_WHJ226的博客-CSDN博客在该博客-CSDN博客博客中讲了动态渲染，Selenium安装，驱动器下载及配置，以及
Python爬虫“折戟”真相大揭秘：数据获取失败全剖析
爬虫数据获取：理想与现实的落差**在数据驱动的时代，数据宛如一座蕴藏无限价值的宝藏矿山，而Python爬虫则是我们深入矿山挖掘宝藏的得力工具。想象一下，你精心编写了一段Python爬虫代码，满心期待着它能像勤劳的矿工一样，源源不断地从网页中采集到你所需要的数据。当一切准备就绪，代码开始运行，那跳动的进度条仿佛是希望的脉搏。有时候现实却给我们泼了一盆冷水。原本期待着收获满满一桶数据，结果得到的却是寥
Python爬虫打怪升级：数据获取疑难全解析女码农的重启 python 爬虫开发语言
一、引言**在大数据时代，数据就是价值的源泉。而Python爬虫，作为数据获取的得力助手，凭借Python简洁的语法和丰富强大的库，在众多领域发挥着重要作用。无论是电商领域的价格监测、市场调研中的数据收集，还是学术研究里的文献获取，Python爬虫都能大显身手。例如，通过爬取电商平台的商品信息，我们可以分析市场趋势，为企业决策提供有力支持；在学术研究中，利用爬虫获取大量文献资料，能帮助研究人员快速
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s