python selenium实现网站表格数据爬取--以波兰太阳能电站补贴数据为例

需要爬取带下拉框选择的网站表格里的数据:波兰民用太阳能补贴项目的网站 https://mojprad.gov.pl/wyniki-naboru

开始打算用BeautifulSoup,不过没研究明白怎么实现下拉框选择和确认(如果有大神知道如何实现的话,求私信!!)。

后来,发现用selenium这个做网站自动化测试的包,用来做网站数据爬取简直不要太方便。

以下为最终实现的对带下拉框的网站表格进行爬取的实例。分步式解析~

前期准备:

这里使用的是chrome+selenium。使用前需要先下载chromdriver.exe并做好配置工作,这里就不详述了,CSDN可以为您解答。

以下是做好配置工作,selenium可以成功调用后的步骤:

第一步,打开网站。

#使用selenium读取网站表格数据
#被读取的表格数据需要进行下拉框选择

#拟爬取的网站
url = 'https://mojprad.gov.pl/wyniki-naboru'

#打开网站
from selenium import webdriver
driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe') 
driver.get(url) 

运行上述步骤后,应该会自动打开拟爬取的网站,同时在浏览器上方会有一行字,提示chrome在收到自动测试软件的控制,如下图:
python selenium实现网站表格数据爬取--以波兰太阳能电站补贴数据为例_第1张图片
第二步,定位下拉框位置

#选择网站中的下拉框并点击
from selenium.webdriver.support.select 

你可能感兴趣的:(Python,数据处理,python,selenium,chrome)