网易云音乐爬虫

爬虫流程

https://www.cnblogs.com/luchun666/p/9394149.html

XHR

jax技术的核心是XMLHttpRequest对象(简称XHR),这是由微软首先引入的一个特性,其他浏览器提供商后来都提供了相同的实现。XHR为向服务器发送请求和解析服务器响应提供了流畅的接口,能够以异步方式从服务器取得更多信息,意味着用户单击后,可以不必刷新页面也能取得新数据

深入理解ajax:https://www.cnblogs.com/yibutian/p/9456248.html

找到加密的方式

(function(){var c4g=NEJ.P,ev6p=c4g("nej.g"),v4z=c4g("nej.j"),k4o=c4g("nej.u"),QF7y=c4g("nm.x.ek"),l4p=c4g("nm.x");if(v4z.bf5k.redefine)return;window.GEnc=true;var bqR4V=function(cIp1x){var m4q=[];k4o.be5j(cIp1x,function(cIn1x){m4q.push(QF7y.emj[cIn1x])});return m4q.join("")};var cIm1x=v4z.bf5k;v4z.bf5k=function(Z5e,e4i){var i4m={},e4i=NEJ.X({},e4i),mm9d=Z5e.indexOf("?");if(window.GEnc&&/(^|\.com)\/api/.test(Z5e)&&!(e4i.headers&&e4i.headers[ev6p.BV4Z]==ev6p.Gf5k)&&!e4i.noEnc){if(mm9d!=-1){i4m=k4o.gZ7S(Z5e.substring(mm9d+1));Z5e=Z5e.substring(0,mm9d)}if(e4i.query){i4m=NEJ.X(i4m,k4o.fM7F(e4i.query)?k4o.gZ7S(e4i.query):e4i.query)}if(e4i.data){i4m=NEJ.X(i4m,k4o.fM7F(e4i.data)?k4o.gZ7S(e4i.data):e4i.data)}i4m["csrf_token"]=v4z.gM7F("__csrf");Z5e=Z5e.replace("api","weapi");e4i.method="post";delete e4i.query;var bXC3x=window.asrsea(JSON.stringify(i4m),bqR4V(["流泪","强"]),bqR4V(QF7y.md),bqR4V(["爱心","女孩","惊恐","大笑"]));e4i.data=k4o.cy5D({params:bXC3x.encText,encSe
cKey:bXC3x.encSecKey})}cIm1x(Z5e,e4i)};v4z.bf5k.redefine=true})();

找到params,encSeckey, bXC3x, window.asrsea 加密

https://www.zhihu.com/question/36081767/answer/140287795

jieba 中文分词库

https://www.jianshu.com/p/2b0ed045e535

  • 将数据存在文件中
  • 使用jieba进行分割
  • 使用wordcloud进行词云输出
# 先把列表数据转换成字符串,再用jieba来分割字符串
    comment_text = jieba.lcut(','.join(text[1:]))
    # list类型转换为str类型
    comment_text = ''.join(comment_text)
    # 打开图片并转换为数组形式
    animal = numpy.array(Image.open('timg_meitu_1.jpg'))
    # 指定字体、背景颜色、宽高、词量、指定的背景图
    wc = wordcloud.WordCloud(font_path='C:/Windows/Fonts/simsun.ttc', background_color="white", width=913, height=900)
    # 生成词云
    wc.generate(comment_text)
    # 保存到本地
    wc.to_file("cloud.png")

你可能感兴趣的:(数据分析)