多进程爬取某图片网站(python爬虫)

之前玩儿爬虫时候发现的一个贼菜的图片网站,貌似没有任何反爬虫机制。在队友建议下,直接开启多进程爬取,heihei,直接爬了几个G的图片,感觉没人能阻止我,可以把这个站爬空。初学的同学可以去感受一下,怎么简单怎么来。

网站:http://www.win4000.com(图片的质量还不错)

代码如下:

import re
import requests
import time
from multiprocessing import Pool
from lxml import etree
import os
import uuid

# 第一个主页面地址
rooturl = 'http://www.win4000.com/zt/huyan_'

# http://www.win4000.com/zt/fengjing.html

# 模拟浏览器请求头
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
                  " AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/70.0.3538.110 Safari/537.36"
}

count = 0
# 图片集url
def graph_set(rooturl):
    set = []
    title = []
    results = requests.get(rooturl, headers=header)
    text = results.text
    res = re.findall('.*href="(.*)" alt="',text)
    selector = etree.HTML(text)
    tt = selector.xpath('//div[contains(@class,"tab_tj")]//li//p')
    for url in res:
        set.append(url)
    for tit in tt[:24]:
        title.append(tit.text)
    return title,set


# 图片页面解析原图集合
def parser(tup):
    response = requests.get(tup[0],headers=header)
    text = response.text
    originset = re.findall('href="(.*)" class=.*查看原图',text)
    time.sleep(1)
    oringin(originset.pop(),tup[1])

# 图集原图集合
def oringin(page,name):
    print(name+'正在爬取')
    dir = 'G:\python 资源\python project\美桌网壁纸爬取\护眼图片\\'
    oringin = []
    response = requests.get(page,headers=header)
    res = re.findall('li.*href="(.*)".*>

 

结果展示: 

多进程爬取某图片网站(python爬虫)_第1张图片

由于图片太多,所以名字是随机生成的 

多进程爬取某图片网站(python爬虫)_第2张图片 

多进程爬取某图片网站(python爬虫)_第3张图片 

多进程爬取某图片网站(python爬虫)_第4张图片 

多进程爬取某图片网站(python爬虫)_第5张图片 

多进程爬取某图片网站(python爬虫)_第6张图片 

多进程爬取某图片网站(python爬虫)_第7张图片 

多进程爬取某图片网站(python爬虫)_第8张图片 

转载于:https://www.cnblogs.com/weew12/p/10583052.html

你可能感兴趣的:(多进程爬取某图片网站(python爬虫))