一个简单的不能再简单的python爬虫

  • 使用到框架:requests+bs4(BeautifulSoup)+pymysql

    requests: 一个数据抓取框架
    bs4: HTML解析框架
    pymysql: python数据库框架

  • 框架安装:

    1. 安装命令: pip3 install XXX
  • 开整!
    1.导入框架
    import requests
    from bs4 import BeautifulSoup
    2.让我们以抓取糗百首页为例:
    r = requests.get("https://www.qiushibaike.com/text")
    print(r.text) #此时打印出首页html内容了已经
    3.创建bs对象,用于从html中过滤有效内容
    q = BeautifulSoup(r.text, 'html.parser')
    4.期望从整个html中解析出正文内容example:

    今天我耍朋友去了 晚上回去 爹妈问 你今天跑哪里去了 我说 我说朋友去了 他们呵呵一声冷笑 就你这样儿还耍的到朋友? 哭了。。。

    1.首先我们要取出所有的div节点
    2.然后在所有的div节点中筛选出我们的目标div

divs = q.find_all('div')
for div in divs:
    if div['class'] == ['content']:  #正文
        text = div.span.text 
        print(text) #自定义存储
  • 总结:整理的流程就是:

    从页面抓取数据 -> 对数据解析,取出内容 -> 内容存储/分析 -> 展示

BeautifulSoup文档

你可能感兴趣的:(一个简单的不能再简单的python爬虫)