快速入门 Python 爬虫常用解析库(xpath、bs4)

目录

    • 第一章 XPath 解析
    • 第二章 Beautiful Soup 模块

第一章 XPath 解析

在 Python 中可以支持 XPath 提取数据的解析模块有很多,本文主要介绍 lxml 模块,该模块可以解析 HTML 与 XML,并且支持 XPath 解析方式。由于 lxml 模块 为第三方模块,需要通过 pip install lxml 命令安装该模块。lxml 模块 的底层是通过C语言编写的,所以在解析效率方面是非常优秀的。xpath 语法参考学习网站:https://www.w3school.com.cn/xpath/xpath_nodes.asp。

【示例1】使用 parse() 方法解析本地的 HTML 文件。(一般不怎么常用)

笔者在自己本地新建了一个 demo.html,内容如下:

DOCTYPE 

你可能感兴趣的:(Python3入门与进阶,python,xpath,lxml,bs4)