python爬虫技术——基础知识、实战

参考文献:
Python爬虫入门(一)(适合初学者)-CSDN博客

一、常用爬虫工具包

  1. Scrapy

    • 语言: Python
    • 特点: 高效、灵活的爬虫框架,适合大型爬虫项目。
  2. BeautifulSoup

    • 语言: Python
    • 特点: 用于解析HTML和XML,简单易用。
  3. Selenium

    • 语言: Python/Java/C#
    • 特点: 支持浏览器自动化,适合处理JavaScript渲染的网页。
  4. Requests

    • 语言: Python
    • 特点: 简单的HTTP请求库,适合轻量级爬虫。
  5. Puppeteer

    • 语言: JavaScript
    • 特点: 无头浏览器工具,适合处理动态网页内容。
  6. Node.js + Request/Axios

    • 语言: JavaScript
    • 特点: 适合构建快速、高效的爬虫。
  7. wget

    • 语言: 命令行工具
    • 特点: 简单的文件下载工具,适合抓取静态资源。
  8. curl

    • 语言: 命令行工具
    • 特点: 用于发送HTTP请求,适合测试和简单抓取。
  9. rapyuta.io

    • 特点: 在线爬虫工具,支持多种网站的抓取和分析。

二、Scrapy 学习

参考:
Scrapy爬虫框架实战_scrapy实战-CSDN博客

1、创建一个scrapy项目

上文中是一个电子书网站

(1)安装scrapy 
使用命令行工具 

pip install Scrapy

(2)创建项目 项目名称可以改变 这里的项目名称是getbooks

scrapy startproject XXX

(3)创建一个爬虫,比如目标网站kgbook.com,注意要先转到刚才的项目 目录下

cd getbooks
scrapy genspider getkgbook kgbook.com

项目目录如下
python爬虫技术——基础知识、实战_第1张图片
scrapy.cfg :项目的配置文件
spiders文件夹:存储爬虫文件
zhifang.py:爬虫文件
items.py:项目的目标文件,如名字,价格等
pipelines.py:存储爬虫数据的文件
settings.py:项目设置文件
getkgbook 

你可能感兴趣的:(python,爬虫,scrapy)