抓取表格为空入库

表格里包含td标签,有td标签,但是数据为空的情况。


捕获.PNG

这个a标签就没有子公司的code 代码编号,其他的都有

使用pandas 中的read_html()
如何补全呢?

方法来了:

soup = BeautifulSoup(page_source, 'lxml')
用read_html()获取table
在xpath标签中的code
for i in xpath:
     ''.join(i)

如果匹配不到也为空字符 就不会错位

你可能感兴趣的:(抓取表格为空入库)