Python 爬虫 —— 获取js渲染的内容

在访问某网站时发现在HTML源码中看不到所需的数据:

网页内容:

HTML源码内容:

于是,我们想到了一个最简单的方法——用 Selenium + PhantomJS 来实现模拟浏览从而获取想要的内容。

下面是示例代码:

from selenium import webdriver


browser = webdriver.PhantomJS(executable_path = './phantomjs')
browser.get("http://www.site-digger.com/html/articles/20110516/proxieslist.html")

trs = browser.find_elements_by_tag_name('tr')

for tr in trs[1:]:
    print(tr.text.split(' ')[0])

我们可以看到:

你可能感兴趣的:(Python 爬虫 —— 获取js渲染的内容)