关于网页自动化工具DrissionPage进行爬虫的使用方法

目录
  • 一. 简介
  • 二. 使用
    • 1. 安装方式
    • 2. 基本用法
    • 3. 模式
    • 4. 元素交互
    • 4. SessionPage
    • 5. 运行JS
    • 6. 结语

一. 简介

最近在学python的过程中,发现了一个好用的爬虫库DrissionPage —— 一个基于 python 的网页自动化工具。据具官方文档(官方网址:https://drissionpage.cn/)介绍:

  • 它既能控制浏览器,也能收发数据包,还能把两者合而为一。
  • 可兼顾浏览器自动化的便利性和 requests 的高效率。
  • 它功能强大,内置无数人性化设计和便捷功能。
  • 它的语法简洁而优雅,代码量少,对新手友好。

笔者在用的过程中发现还不错,语法简洁方便,可无配置运行。就写一篇文章分享一下这个工具的使用方法。

二. 使用

1. 安装方式

开始之前,我们要先安装一个这个库,注意:Python版本要在3.6及以上,我们使用pip安装,安装命令:

pip install DrissionPage

升级最新稳定版本版本使用:

pip install DrissionPage --upgrade

或者指定版本安装:

pip install DrissionPage==4.0.0b17

2. 基本用法

在我们的Python文件中导入DrissionPage库,写一个最简单的demo,我们来爬取百度的热搜榜单。
我们先来观察一下百度首页的页面结构,我们可以看到这些热搜都用到了title-content-title类,那我们就可以使用这个类名来获取信息。
关于网页自动化工具DrissionPage进行爬虫的使用方法_第1张图片

from DrissionPage import ChromiumPage

# 创建ChromiumPage对象时会在指定端口启动浏览器,或接管该端口已有浏览器。
# 默认情况下,程序使用 9222 端口
page = ChromiumPage()
# 只传入一个url就行,后面那些参数都有默认值
page.get('https://www.baidu.com',retry=99, show_errmsg=True, timeout=10)
# 这里我们通过类名获取元素
lists = page.eles('.title-content-title')
for i in lists:  
    print(i.text)

执行这个文件,在控制台中我们看到成功获取了我们在页面上看到的那些热搜

你可能感兴趣的:(面试,学习路线,阿里巴巴,自动化,爬虫,运维)