'lxml.etree._ElementUnicodeResult' 的格式转换问题

我们在使用lxml库解析HTML文件后得到的内容是lxml.etree._ElementUnicodeResult格式,lxml.etree._ElementUnicodeResult格式其实是一种特殊的字符串格式,
接下来我将演示将lxml.etree._ElementUnicodeResult转化为json格式,可以使用json.loads方法,示例如下:

在这里我们首先得到一个lxml.etree._ElementUnicodeResult对象:

script=html.xpath('//script[@type="application/ld+json"]/text()')
script ##这是一个lxml.etree._ElementUnicodeResult对象

'lxml.etree._ElementUnicodeResult' 的格式转换问题_第1张图片
由上面的结果可以看出lxml.etree._ElementUnicodeResult对象是一个列表,其内部是字符串,接下来我们可以将内部的字符串转化为json格式,这样可以更方便我们提取数据;

接下来将它转变为Python格式:

import json
for item in script:
    item_json=json.loads(item) #将script列表内每一个item对象转化为python对象
    print(item_json)

'lxml.etree._ElementUnicodeResult' 的格式转换问题_第2张图片
上图可以看出lxml.etree._ElementUnicodeResult已经转化为Python格式了。

你可能感兴趣的:(爬虫)