python爬音乐代码_python3爬取TOP500的音乐信息的代码详解

python3实现爬取TOP500的音乐信息并存储到mongoDB数据库中

爬取TOP500的音乐信息,包括排名情况、歌曲名、歌曲时间。

网页版酷狗不能手动翻页进行下一步的浏览,仔细观察第一页的URL:

http://www.kugou.com/yy/rank/home/1-8888.html

这里尝试将1改为2,再进行浏览,恰好是第二页的信息,再改为3,恰好是第三页的信息,多次尝试发现不同的数字即为不同的页面。因此只需更改home/后面的数字即可。由于每页显示的为22首歌曲,所以总共需要23个URL。

import requests

from bs4 import BeautifulSoup

from time import sleep

import pymongo

#连接数据库

client = pymongo.MongoClient(‘localhost',27017)

mydb = client[‘yourdb']

#创建数据库

musicTop = mydb[‘musicTop']

#使用header是用于伪装为浏览器,让爬虫更稳定

Headers = {

‘User-Agent': ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'

}

#定义获取信息的函数

def get_info(url):

wd_data = req

你可能感兴趣的:(python爬音乐代码)