E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python数据挖掘
9.作者归属问题
CreatedonSunOct709:00:322018@author:asus"""#9作者归属问题#9.1.3获取数据importosimportsysdata_folder=os.path.join("E:\\books\
Python
北有鸣鹿
·
2020-07-06 17:19
python数据挖掘入门与实践
Python数据挖掘
学习笔记(2)文本相似度分析
关于使用Python进行文本相似度分析,网上的相关博客已经非常多了,因此本文仅进行简单的讲解,直接上代码,方便不想过多理解概念即要实现文本相似度分析的网友使用。一、相关理论:语料库的定义:https://baike.baidu.com/item/语料库/11029908?fr=aladdin稀疏向量的定义:https://baike.baidu.com/item/稀疏向量TF-IDF算法:可参考h
Zhengyh@Smart3S
·
2020-07-06 15:51
Python
Python数据挖掘
:聚类
Python数据挖掘
:聚类数据挖掘第三周作业#波士顿房价数据集聚类#1.k均值聚类,按照类别涂色;#2.层次聚类,绘制聚类结果的基础上,绘制出层次树。
weixin_44382897
·
2020-07-06 05:33
Python
[
Python数据挖掘
] sklearn-SVM分类(SVC)
[问题分析]在[
Python数据挖掘
]sklearn-KMeans聚类一文中,实现了对以下数据集的聚类:YZN,133,108,76ZHY,96,145,101WYZ,132
swordtraveller
·
2020-07-05 13:08
Python
Python
数据挖掘
入门
kaggle竞赛系列3----
python数据挖掘
时间序列时间量分析(以elo竞赛为例)
今天要分析的一个kernel是一个关于elo的loyalty关于时间序列的关系的研究的kernel。关于竞赛介绍及基础知识见:我的上一篇内核分析:https://blog.csdn.net/ssswill/article/details/85217702这篇kernel来自:ACloserLookatDateVariables写在前面:个人认为这篇kernel与比赛关系不大,之所以分析它是因为里面
ssswill
·
2020-07-05 13:48
kaggle
python数据挖掘
预测Boston房价
第5章LinearR/PLR/SVR/KNN/DTR/RFR(测算房价)
python数据挖掘
预测Boston房价以上为两个博客,本文都是从中整理而来第一个数据集,包名如下:housing.csv0.0063218.002.31000.53806.575065.204.09001296.015.30396.904.9824.000.027310.007.07000.46906.421078.904
chen_zan_yu_
·
2020-07-04 13:54
Python数据挖掘
—回归—一元非线性回归
1、使用scatter_matrix判断个特征的数据分布及其关系散步矩阵(scatter_matrix)Pandas中散步矩阵的函数原理1defscatter_matrix(frame,alpha=0.5,figsize=None,ax=None,diagonal='hist',marker='.',density_kwds=None,hist_kwds=None,range_padding=0.
anrao9657
·
2020-07-01 17:53
带你入门
Python数据挖掘
与机器学习(附代码、实例)
本文结合代码实例待你上手
python数据挖掘
和机器学习技术。
有文化_0a9b
·
2020-07-01 14:50
以豆瓣网为例,模拟登陆爬虫以及验证码处理
最近在学天善智能课堂韦玮老师的课程,
python数据挖掘
与分析实战,通过自己部分的代码和借鉴老师的项目,多次试验改进调试成功豆瓣的模拟登录,顺便处理了怎么自动化的处理验证码。
zqzq19950725
·
2020-06-30 19:54
python 数据挖掘 之 对数据进行简单预处理(1)
python数据挖掘
之对数据进行简单预处理在我们对数据集进行数据挖掘之前,需要先对数据集进行简单的处理,让数据集变得更规范更具有代表性。对数据集进行的预处理又许多种,接下来我就简单说几种常用的。
longling0
·
2020-06-30 18:32
python
数据挖掘
python基本操作
python
数据分析
Python数据挖掘
实战——KNN算法(K最近邻节点算法,k-NearestNeighbor)
一、分类分类是用来预测类别数据的一种方法,可以用来预测未来一段时间内用户是否会流失,预测用户是否会响应你的促销活动,能够评估用户的信用度是好还是差的一系列分类预测问题。二、概念2.1监督学习(SupervisedLearning)从给定标注的训练数据集中学习出一个函数,根据这个函数为新数据进行标注。(有因变量y)回归分类、分类、时间序列等。2.2无监督学习(UnsupervisedLearning
zhuoyue65
·
2020-06-30 17:00
数据挖掘
Python数据挖掘
实战——贝叶斯分类算法
一、概念1.1贝叶斯定理(BayesTheorem)eg.判断一个人品质的好坏是根据一个人过往的行为进行判断的,但是对于陌生人一开始初始化为50%好人、50%坏人,如果之后他做了一件好事,这个事会增加我们判断他为好人的根据。如果发现他做了一件坏事,会增加他是坏人的概率。1.2朴素贝叶斯分类(NaiveBayesClassifier)贝叶斯分类算法,是统计学的一种分类方法,它是利用贝叶斯定理的概率统
zhuoyue65
·
2020-06-30 17:00
数据挖掘
Python数据挖掘
实战——回归
一、回归分析(RegressionAnalysis)研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y与影响它的自变量Xi(i=1,2,3....)之间的回归模型,来预测因变量y的发展趋势。二、回归分析的分类2.1线性回归分析:简单线性回归、多重线性回归2.2非线性回归分析:逻辑回归、神经网络三、简单线性回归模型y=a+bx+e(一元一次方程)1)y——因变量2)x——自变量3)a
zhuoyue65
·
2020-06-30 17:59
数据挖掘
Python数据挖掘
实战——相关分析
继续补以前拉下的债~~~一、相关性指标的研究意义1.1相关系数(Correlationcoefficient):相关系数是变量间关联程度的最基本测度之一1.2相关分析(Correlationanalysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。二、相关系数的基本特征2.1方向:正相关(positivec
zhuoyue65
·
2020-06-30 17:59
数据挖掘
Python数据挖掘
——概况
一、碎碎念之前一直因为懒,没有把学了的给整理下来,现在慢慢补起来。二、数据挖掘概述1.什么是数据挖掘?数据挖掘(datamining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。eg:啤酒与尿布、杜蕾斯与口红、杜蕾斯与红酒。==>达到增加商品销售的目的。数据挖掘误区:【实际】:1.数据挖掘是人们处理商业问题的某些方法,我们通过它来
zhuoyue65
·
2020-06-30 17:59
数据挖掘
6月书讯:Di li li li di li li li...
互联网与人工智能》、《iOS开发指南:从HelloWorld到AppStore上架(第4版)》、《ReactNative开发指南》、《图解密码技术(第3版)》、《R语言入门与实践》【含社区电子版】、《
Python
图灵教育
·
2020-06-30 08:55
python数据挖掘
学习笔记
python数据挖掘
学习笔记1.python基础知识;2.python爬虫技术;3.python数据分析与数据挖掘。
Jerry Lee の blog
·
2020-06-30 08:37
复试
Python数据挖掘
基础(二):Numpy
目录1.Numpy的优势2.数组属性3.创建数组4.数组形状与类型变化4.数组运算4.1逻辑运算4.2统计运算4.3数组间运算4.4合并分割1.Numpy的优势Python已经提供了很多丰富的内置包,我们为什么还要学习NumPy呢?先看一个例子,找寻学习NumPy的必要性和重要性。如下:完成同样的都对元素相加的操作,NumPy比Python快了11倍之多。这就是我们要学好NumPy的一个重要理由,
Amo Xiang
·
2020-06-30 04:19
Python
Python数据挖掘
之 数据处理(使用pandas对智联招聘上的北京地区python岗位进行数据清洗)
上两篇我们爬了一篇智联招聘的数据,主要是北京地区python开发岗位的数据,数据量不是很大,几千条,这一篇文章我们队智联招聘的数据进行数据处理。一直以来,我以为的数据处理是已经在python爬虫阶段已经做好了,其实并不是,python爬虫并没有把数据处理这一部分的工作完全给做好,数据处理只是数据挖掘的一小部分,接下来,就是在jupyternotebook上进行数据处理,到中途就卡壳掉一部分,不过,
xudailong_blog
·
2020-06-30 03:27
数据挖掘
pandas
智联招聘
python
数据处理
Python数据分析、挖掘常用工具
挖掘场景中常用特性:列表(可以被修改),元组(不可以被修改)字典(结构)集合(同数学概念上的集合)函数式编程(主要由lambda()、map()、reduce()、filter()构成)Python数据分析常用库:
Python
weixin_43932460
·
2020-06-29 11:06
Python数据挖掘
之数据预处理
目录Python主要数据预处理函数1、interpolate2、unique3、isnull/notnull4、andom5、PCAPython主要数据预处理函数在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列
高羊羊羊羊羊杨
·
2020-06-29 09:58
Python
【
Python数据挖掘
实战案例】K-Means广告效果聚类分析
作者:杨啊小强来源:Python数据科学修炼之路本案例的业务场景:假如你们公司投放广告的渠道很多,每个渠道的客户性质也可能不同,比如在优酷视频投广告和今日头条投放广告,效果可能会有差异。现在需要对广告效果分析实现有针对性的广告效果测量和优化工作。本案例,通过各类广告渠道90天内额日均UV,平均注册率、平均搜索率、访问深度、平均停留时长、订单转化率、投放时间、素材类型、广告类型、合作方式、广告尺寸和
IT农民工1
·
2020-06-29 08:57
python数据挖掘
笔记——回归(3):一元非线性回归
概念:一元非线性回归分析(UnivariateNonlinarRegression):在回归分析中,只包含一个自变量和一个因变量,且二者的关系可以用一条曲线表示,则成为一元非线性分析。案例:游戏等级和木材消耗的关系。木材消耗和游戏等级呈一条曲线关系,探究木材消耗和游戏等级之间的非线性关系。求解:将一元非线性回归方程转为多元线性回归方程,例如:下面是代码演示:首先导入数据集,取出自变量和因变量。im
小柴~
·
2020-06-29 06:14
python
python数据挖掘
笔记——回归(2):多重线性回归
多重线性回归(MultipleLinearRegression):研究一个因变量与多个自变量之间的线性关系的方法。一元线性回归是特殊的多重线性回归,多重线性回归分析步骤和一元线性回归一样:回归分析的步骤:根据预测目标,确定自变量和因变量。绘制散点图,确定回归模型类型。估计模型参数,建立回归模型。对回归模型进行检验。回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,用调整判定系数来度量
小柴~
·
2020-06-29 06:14
python
python数据挖掘
实战笔记——文本分析(6):关键词提取
紧接上篇的文档,这节学习关键字的提取,关键词——keyword,是人们快速了解文档内容,把握主题的重要内容。#导入需要的模块importosimportcodecsimportpandasimportjiebaimportjieba.analyse#搭建语料库forroot,dirs,filesinos.walk(r"C:\Users\www12\Desktop\data\2.6\SogouC.m
小柴~
·
2020-06-29 06:13
python
python数据挖掘
实战笔记——文本挖掘(5):词云美化之绘制《红楼梦》词云图
词云图的美化就是把词云图的背景和颜色进行美化,以《红楼梦》词云图为例,如下所示:首先绘制词云,跟之前的代码操作一样:importjiebaimportnumpyimportcodecsimportpandas#读取红楼梦文本file=codecs.open(r"C:\Users\www12\Desktop\data\2.5\红楼梦.txt",'r','utf-8')content=file.rea
小柴~
·
2020-06-29 06:13
python
python数据挖掘
实战笔记——文本挖掘(7):TF-IDF原理
概念:词频(TermFrequency):指的是某一指定的词在该文档中出现的次数。逆文档频率(InverseDocumentFrequency):IDF就是每个词的权重,它的大小与一个词的常见程度成反比。TF-IDF:衡量某个词是否关键词的指标,该值越大,是关键词的可能性就越大。计算公式:TF=该词在文档中出现的频率。IDF=log(文档总数/包含该词的文档数+1)TF-IDF=TF*IDF上代码
小柴~
·
2020-06-29 06:13
python
python数据挖掘
实战笔记——文本挖掘(1):语料库构建
什么是文本挖掘?文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。一、搭建语料库语料库:要进行文本分析的所有文档的集合。需要用到的模块:os、os.path、codecs、pandas代码如下:importosimportos.pathimportcodecsimportpandasfilePaths=[]forroot,dirs,fil
小柴~
·
2020-06-29 06:13
python
用Python做一款俄罗斯方块游戏
作者|Ahab,专注与
Python数据挖掘
、数据分析与机器学习来源|Ahab杂货铺编辑|Jane【编者按】之前作者用Python做了一款俄罗斯方块的小游戏,这次,作者在原来工作的基础上进行了升级,用AI
Python大本营
·
2020-06-29 04:41
Python的P图大法,你值得拥有!
作者|Ahab,专注与
Python数据挖掘
、数据分析与机器学习编辑|Jane现在,PS的应用越来越广泛,大家的PS技术也越来越炉火纯青,任何一张图,只有你想不到的,没有我P不了的,轻松就可以变成搞笑图片
Python大本营
·
2020-06-29 04:41
数据预处理包括哪几步?
.本文是
Python数据挖掘
实战的读书笔记。因为数据预处理这部分比较枯燥无趣,所以先手抄一遍主要内容。
浮点型队友
·
2020-06-29 03:03
学习记录
python数据挖掘
--超参寻优篇(附方法和代码)
数据挖掘路上点点滴滴,记录超参优化的常用手段,最近在学习自动化超参寻优,持续更新。1.K折交叉验证参数fromsklearn.model_selectionimportcross_val_score,KFold定义交叉验证规则n_folds=5rmse=[]defrmsle_cv(model):kf=KFold(n_folds,shuffle=True,random_state=42).get_n
睡醒了的小码媛
·
2020-06-29 03:57
机器学习
python数据分析
python数据挖掘
---建模篇(附代码)
数据挖掘路上点点滴滴,记录下机器学习常用模型(附代码),持续更新数据划分x_train1,x_test1,y_train1,y_test1=train_test_split(x,y,train_size=0.8,random_state=14)数据标准化树类模型不需要,使数据符合N(0,1)分布。很多ML的算法要求训练的输入参数的平均值是0并且有相同阶数的方差例如:RBF核的SVM,L1和L2正则
睡醒了的小码媛
·
2020-06-29 03:57
机器学习
python数据分析
Python数据挖掘
进阶--泰坦尼克号案例分析
一.概念介绍:1.机器学习:机器学习算法来建立模型,当有新的数据过来,通过模型能够进行预测。2.特征(features)和标签(labels):特征:数据的属性,通过这些特征可以代表数据的特点,例如Excel的字段列名,也叫做解释变量或自变量。标签:对数据的预测结果,也叫做因变量。3.训练数据(train)和测试数据(tset):训练数据:用于机器学习算法,之后形成我们的机器学习模型。测试数据:用
南方有夏花
·
2020-06-29 01:24
4_数据挖掘与机器学习
Python数据挖掘
:利用聚类算法进行航空公司客户价值分析
无小意丶个人博客地址:无小意知乎主页:无小意丶公众号:数据路(shuju_lu)刚刚开始写博客,希望能保持关注,会继续努力。以数据相关为主,互联网为辅进行文章发布。本文是《Python数据分析与挖掘实战》一书的实战部分,在整理分析后的复现。本篇文章是本书第七章的实战:航空公司客户价值分析。相关附件代码、数据和PDF,关注公众号“数据路”,回复:挖掘实战。更好的观看体验,在线Jupyternoteb
无小意
·
2020-06-28 22:56
数据挖掘实战
大邓的自建博客Thunderhit开通了
Python数据挖掘
与文本分析&Stata应用能力提升与实证前沿开始报名了~在B站看到一位博主用Hugo制作个人博客的视频,感觉挺简单的,真的十几分钟就能看到云端出现自己的博客,当然了想让自己的博客更美观更炫酷
邓旭东HIT
·
2020-06-28 20:42
数据科学利器 PyCaret,几行代码搞定从数据处理到模型部署
Python数据挖掘
与文本分析&Stata应用能力提升与实证前沿云特训学习数据科学很久了,从数据探索、数据预处理、数据模型搭建和部署这些过程一直有些重复性的工作比较浪费时间,尤其当你有个新的想法想要快速尝试下效果的时候
邓旭东HIT
·
2020-06-28 20:42
python数据挖掘
包SciPy Sparse
博客原文:http://blog.csdn.net/pipisorry/article/details/41762945简介SciPy是为数学,科学和工程服务的开源软件SciPy是建立在Numpy上的数学算法和便利函数的集合对于那些零元素数目远远多于非零元素数目,并且非零元素的分布没有规律的矩阵称为稀疏矩阵(sparse),由于稀疏矩阵中非零元素较少,零元素较多,因此可以采用只存储非零元素的方法来
huiqin08
·
2020-06-28 19:46
计算机语言学习
《
Python数据挖掘
:概念、方法与实践》扩展你的数据挖掘工具箱
本节书摘来自华章出版社《SAFe4.0参考指南:精益软件与系统工程的规模化敏捷框架》一书中的第1章,第1节,作者[美]梅甘·斯夸尔(MeganSquire)更多章节内容可以访问云栖社区“华章计算机”公众号查看。扩展你的数据挖掘工具箱面对感官信息时,人类自然想要寻找模式,对其进行区别、分类和预测。这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长。利用这种技能,我们的祖先更好地掌握了狩猎、
weixin_34358365
·
2020-06-28 17:14
Python数据挖掘
-文本挖掘
文本挖掘概要搞什么的?从大量文本数据中,抽取出有价值的知识,并且利用这些知识更好的组织信息的过程。目的是什么?把文本信息转化为人们可利用的知识。举例来说,下面的图表利用文本挖掘技术对库克iphoneX发布会的内容进行分析,得出此次发布会报告中的几个常青词汇、词频的趋势变化情况。(一)语料库(Corpus)在python中,如何根据以往的文档文件搭建一个语料库?1.什么是语料库语料库是我们要分析的所
???111
·
2020-06-27 20:20
学习推荐+《从零开始学Python数据分析与挖掘》PDF+azw3+刘顺祥
利用python学习数据分析与数据挖掘,推荐参考学习《利用python进行数据分析第二版》、《Python数据分析与挖掘实战》和《
Python数据挖掘
入门与实践》《从零开始学Python数据分析与挖掘》
weixin_30384031
·
2020-06-27 19:22
数据可视化总结
数据可视化工具整理(一)、
Python数据挖掘
相关扩展库Numpy提供数组支持,以及相应的高效的处理函数Scipy提供矩阵支持,以及矩阵相关的数值计算模块Matplotlib数据可视化工具,作图库Pandas
小于狙击手
·
2020-06-27 08:39
数据挖掘
python数据分析与挖掘项目实战记录
python数据挖掘
项目实战记录取自《Python数据分析与挖掘实战》一书,整理各个项目中用到的数据处理方法:数据预处理方法建立模型方法绘制图形对于分类问题:用模型分类;混淆矩阵及其绘图;观测其ROC曲线
小于狙击手
·
2020-06-27 08:08
数据挖掘
Python与机器学习1——scikit-learn使用的简易框架
本系列博客主要参考《利用Python进行数据分析》、《
Python数据挖掘
入门与实践》、《机器学习》(周志华)。以后两本为主线学习。第一本书作为工具书,用于补充Python、Pandas等背
I_am_Damon
·
2020-06-27 05:55
python
机器学习
python数据挖掘
与分析实战—1、2、3
一、数据挖掘的建模过程:1.1定义挖掘目标:1.1.1动态的菜品推荐1.1.2客户进行细分,关注最有价值的客户1.1.3基于菜品的历史销售情况,对菜品销量进行预测,预备原材料1.1.4基于大数据,优化选址,菜式调整1.2数据取样随机抽样,分类抽样,等距抽样1.3数据探索1.3.1异常值分析1.3.2缺失值分析1.3.3相关性分析1.3.4周期性分析1.4数据预处理1.4.1缺失值处理1.4.2异常
呼噜娃娃
·
2020-06-27 04:49
python
python数据挖掘
领域工具包
原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和
程序员杰
·
2020-06-27 03:15
大数据
数据挖掘
python数据挖掘
和数据分析
下载安装Anacondahttps://www.anaconda.com/download/#windows下载安装Spyderhttps://pypi.org/project/spyder/下载安装numpy库pipinstallnumpy下载安装Scipypipinstallscipy下载安装Matpotlibpipinstallmatplotlib下载安装Pandaspipinstallpa
chien1122
·
2020-06-26 21:57
python
python数据挖掘
学习路线
一、数据挖掘基础1.1数据挖掘的基本任务1.2数据挖掘的建模过程1.3常用的数据挖掘建模工具二、python数据分析工具2.1Numpy2.2Scipy2.3Matplotlib2.4Pandas2.5StatsModels2.6Scikit-Learn2.7Keras2.8Gensim三、数据探索3.1数据质量分析3.2数据特征分析3.3Python主要数据探索函数四、数据预处理4.1数据清洗4
梓川祢豆子
·
2020-06-25 22:00
python数据挖掘
Python数据挖掘
入门与实践(四)之Apriori算法推荐电影
第四章用亲和性分析方法推荐电影基于《
python数据挖掘
入门与实践》这一书的学习笔记,其中数据集和源码可以去图灵社区下载。
lazy_wzyuan
·
2020-06-25 07:30
数据挖掘学习笔记
Python数据挖掘
入门与实践(三)之用决策树预测获胜球队
第3章:用决策树预测获胜球队基于《
python数据挖掘
入门与实践》这一书的学习笔记,其中数据集和源码可以去图灵社区下载。一、关于数据集根据书中的事例,使用NBA2013-2014赛季的比赛数据。
lazy_wzyuan
·
2020-06-25 07:30
数据挖掘学习笔记
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他