数据提取的概念和数据的分类

1. 什么是数据提取

简单的来说,数据提取就是从响应中获取我们想要的数据的过程
数据提取的概念和数据的分类_第1张图片

2. 爬虫中数据的分类

  • 结构化数据:json,xml等
    - 处理方式:直接转化为python类型
  • 非结构化数据:HTML
    - 处理方式:正则表达式、xpath

下面以今日头条的首页为例,介绍结构化数据和非结构化数据

  • 结构化数据例子:
    数据提取的概念和数据的分类_第2张图片

  • 非结构化数据:
    数据提取的概念和数据的分类_第3张图片

XML数据:

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italiantitle> 
  <author>Giada De Laurentiisauthor> 
  <year>2005year> 
  <price>30.00price> 
book>
<book category="CHILDREN">
  <title lang="en">Harry Pottertitle> 
  <author>J K. Rowlingauthor> 
  <year>2005year> 
  <price>29.99price> 
book>
<book category="WEB">
  <title lang="en">Learning XMLtitle> 
  <author>Erik T. Rayauthor> 
  <year>2003year> 
  <price>39.95price> 
book>
bookstore>

从上面可以看出,xml数据也是结构非常明显的

你可能感兴趣的:(简述)