Python爬取微博热搜

  • Python是一种跨平台的计算机程序设计语言。其是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。

  • Time是python标准库,无需额外下载,主要用于处理时间问题。

  • Requests是一个很实用的Python HTTP客户端库。

  • Pandas是一个Python软件包,提供快速,灵活和可表达的数据结构,旨在使结构化(表格,多维,潜在异构)和时间序列数据的处理既简单又直观。

  • Lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取。其主要优点是易于使用,在解析大型文档时速度非常快,归档的也非常好,并且提供了简单的转换方法来将数据转换为Python数据类型,从而使文件操作更容易。

  • 实验目标:Python爬取微博热搜

  • 很多人学习python,不知道从何学起。
    很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
    很多已经做案例的人,却不知道如何去学习更加高深的知识。
    那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
    QQ群:101677771

  • 实验页面图片:

 

No.2

实验环境

 

  • Python 3.x (面向对象的高级语言)

  • Time (python标准库)

  • Requests 2.14.2(python第三方库)

  • Pandas 1.1.0(python第三方库)

  • Lxml(python第三方库)

 

No.3

环境下载

 

  • Python下载

    • https://www.python.org/downloads/

  • Requests下载

    • pip3 install requests

  • Pandas 下载

    • pip3 install pandas 

  • Lxml下载

    • pip3 install lxml

  • 验证第三方库是否下载成功:

    • import time

    • import requests

    • import pandas

    • import lxml

  • 以上代码没有报错则下载成功

 

No.4

实验思路

 

  1. 导入所需的库

  2. 设置网址和请求头

  3. 用request.get()发送请求

  4. 用lxml.etree方法进行数据解析

  5. 用xpath方法获取目标元素

  6. 最后用pandas保存为csv文件

 

No.5

完整代码

 

 

No.6

实验结果

 

你可能感兴趣的:(Python爬取微博热搜)