200-Study | Python学习 | 爬虫项目 | JD商品评论 | 小牛电动车-01

项目需求

  • 收集京东平台小牛电动车的用户评价,不含其它周边类似配件的用户评价。

步骤

  1. 获取小牛电动车各个型号的产品列表及对应的产品页链接
  2. 按照各个型号给出的产品页链接,爬取每个产品的商品评价

selenium爬取

# 京东评论 爬取
from selenium import webdriver
import time
import numpy as np
import pandas as pd
from selenium.common.exceptions import NoSuchElementException

chromeOptions = webdriver.ChromeOptions()
chromeOptions.add_argument('--proxy-server=127.0.0.1:8118')
 # 京东的反爬虫机制是对疑似爬虫用户禁封IP的形式,所以访问时注意设置代理IP
 # 如果所需的爬虫较多,需要设置休息时间
browser = webdriver.Chrome(options=chromeOptions)

#browser = webdriver.Chrome()
browser.get('https://mall.jd.com/view_search-625118.html')
browser.maximize_window()
# 找到五个产品分类
category = browser.find_elements_by_partial_link_text('小牛电动')[:5]
category_name = [cate.text for cate in category]
category_links = [cate.get_attribute('href') for cate in category]
time.sleep(np.random.randint(0,5))  # 京东的反爬虫机制是对疑似爬虫用户禁封IP的形式。 

Requests爬取

requests爬取是对selenium爬取的一次升级,在对网页交互进行分析的基础上,我们可以直接访问到某个商品评论的json。这种方式显然是快于用selenium直接访问每页评论的。

网页分析

200-Study | Python学习 | 爬虫项目 | JD商品评论 | 小牛电动车-01_第1张图片
如上图所示,我们用chrome的检查工具中网络分析来寻找有用的信息。
200-Study | Python学习 | 爬虫项目 | JD商品评论 | 小牛电动车-01_第2张图片
这个请求的返回结果正好是我们想寻找的商品评论json。

接下的来的操作可以移步[京东评论爬取]。(https://blog.csdn.net/Minervar/article/details/89080119)

你可能感兴趣的:(200-Study | Python学习 | 爬虫项目 | JD商品评论 | 小牛电动车-01)