E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
pySpark
Windows 10 下单机 Spark 环境搭建
【目的】Windows10裸机搭建Spark环境,使能运行
PySpark
Shell。
RQSLT
·
2019-01-31 12:38
pyspark
环境搭建
Hadoop/Spark
PySpark
通过Arrow加速
前言
PySpark
是Spark实现UnifyBigData&&MachineLearning目标的基石之一。
祝威廉
·
2019-01-28 16:58
8.
pyspark
.sql.window
SparkSQL和DataFrames重要的类有:
pyspark
.sql.SQLContext:DataFrame和SQL方法的主入口
pyspark
.sql.DataFrame:将分布式数据集分组到指定列名的数据框中
丫丫iii
·
2019-01-24 17:08
pyspark
工具机器学习(自然语言处理和推荐系统)2数据处理2
PySpark
中有两种类型的UDF:常规UDF和PandasUDF。PandasUDF在速度和处理时间方面更加强大。
python测试开发
·
2019-01-24 12:56
pyspark
中DataFrame的操作
1、查询1.1行元素的查询操作--显示:data.show(30)------数据类型:dataframe--取某几行:data.head()----------数据类型:Rowdata.take(5),data.head(5)--------list类型,注意:两种数据类型不一样!以树的形式打印概要,相当于sql中的descdata.printSchema()--总共有多少行data.count
Galbraith_
·
2019-01-23 10:30
spark
PYSPARK
学习库
一、
pyspark
机器学习库ml1、ML和MLlib的区别ml目前处于维护状态(只修复bug而不增加新功能),并且以后会支持ml,MLlib在spark3.0中可能会被废弃(学习spark的小伙伴直接用
Galbraith_
·
2019-01-21 22:56
spark
Spark各目录作用(部署目录和运行时目录)
${SPARK_HOME}"/bin/load-spark-env.sh表示执行spark-env.sh的配置信息,确保会加载
pyspark
最后exec"${SPARK_HOME}"/bin/spark
假的鱼
·
2019-01-15 15:23
大数据
Windows10下配置大数据开发环境(3) - 安装Spark,
PySpark
一预备条件下载安装scale:Scala2.12.7https://www.scala-lang.org/download/all.html二安装spark下载安装spark:http://spark.apache.org/downloads.html三配置先配置系统环境变量安装用start-all.cmd启动hadoop,先确认/tmp/hive存在:D:\hadoop-3.1.1\bin>ha
hawkzy
·
2019-01-14 11:09
Python
大数据
spark持久化操作 persist(),cache()
以下是一个基于
pyspark
计数的测试#-*-encoding='utf-8
donger__chen
·
2019-01-12 17:25
学习笔记
Spark学习笔记
导入必要的包from
pyspark
importSparkConf,SparkContext上传本地文件到hdfshadoopfs-copyFromLocal/data/data.txt/spark/加载文件数据
alpha18
·
2019-01-12 15:53
pyspark
-配置spark的Python环境
1.首先你的服务器上spark环境已经配置完成,本文主要针对spark配置
pyspark
2.由于python的库众多为了更好的管理与集成,这里使用anconda3来集成Python3(我的centOS7
三石弟弟
·
2019-01-10 11:58
spark
python kafka消息传入spark streaming 实时计算打印
#-*-coding:utf-8-*-#@Time:2019/01/0918:00#@Author:xuanda#@Site:#@File:kafka_to_sparkstreaming.pyfrom
pyspark
importSparkContextfrom
pyspark
.streamingimportSt
chinasiyu
·
2019-01-09 18:34
大数据相关
pyspark
以spark-submit 运行Python程序
1.压缩工程文件sudozip-r项目.zip.gz./*2.配置PYTHONPATH,指向该目录3.工程下创建配置文件conf.py文件AI_PLATFORM_SOURCE=r'/usr/项目.zip'2.代码引用外部模块#从conf引用模块路径fromconfimport项目路径sys.path.append(项目路径)fromsettingsimport项目路径引用压缩包的类import_m
dymkkj
·
2019-01-07 15:47
spark
pyspark
pyspark
及Spark报错问题汇总及某些函数用法。
此贴,主要记录本人在工作中遇到的某些报错问题,并提出自己的解决办法。1.spark=SparkSession.builder()TypeError:'Builder'objectisnotcallable解决办法:.builder()改为.builderhttps://issues.apache.org/jira/browse/SPARK-18426spark=SparkSession.build
元元的李树
·
2019-01-07 14:27
Spark
pyspark
Failed to locate the winutils binary in the hadoop binary path 报错解决
WINDOWS10环境下单机下调试
pyspark
代码,在没有配置HADOOP_HOME的环境变量,会产生ERRORShell:397-Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException
lepton126
·
2019-01-07 10:22
编程
运维
知识点
pyspark
操作MongoDB的方法步骤
这里建议使用Jupyternotebook,会比较方便,在环境变量中这样设置
PYSPARK
_DRIV
小歪的博客
·
2019-01-04 09:12
python spark streaming单机测试,streaming源为本地,统计word count
网上有很多
pyspark
streaming的测试代码,不过大多都是需要结合kafka做消息来源由于懒得搭kafka,所以想本地生成随机数据作为streaming源,测试sparkstreaminggoogle
chinasiyu
·
2019-01-03 17:28
大数据相关
pyspark
学习笔记: 一些环境配置问题
使用
pyspark
一些环境配置问题基本配置安装spark后,还需要修改Spark的配置文件spark-env.shcd/usr/local/sparkcp.
Never-Giveup
·
2019-01-01 21:40
大数据PySpark学习笔记
win10 安装单机版
pyspark
参考这篇博客:https://blog.csdn.net/weixin_38556445/article/details/78182264默认已经电脑已经安装java和python。1需要安装spark和hadoop(python3.6需要spark2.1以上版本)两者作相同处理:解压之后,还需要完成SPARK_HOME和bin环境变量相关配置;HADOOP_HOME和bin环境变量的配置。2下载
蕾姆233
·
2018-12-29 16:40
spark
pyspark
列合并为一行
将dataframe利用
pyspark
列合并为一行,类似于sql的GROUP_CONCAT函数。
TTyb
·
2018-12-29 16:00
利用
pyspark
.ml训练lightgbm模型的流程
在spark上训练模型的优势:(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用一般的Hadoop分布式计算框架,每次计算都要读/写磁盘以及任务的启动等工作,这回导致非常大的I/O和CPU消耗。而Spark基于内存的计算模型天生就擅长迭代计算,多个步骤计算直接在内存中完成.(2)从通信的角度讲,如果使用Hadoop
依旧那么挨揍
·
2018-12-27 16:58
pyspark
spark-shell无法指定被请求的地址: Service 'sparkDriver' failed after 16 retries (on a random free port)
新地址:https://blog.iaiot.com/
pyspark
-spark-shell-sparkDriver-failed.html原文:https://stackoverflow.com/questions
haojiliang
·
2018-12-23 22:25
Spark
Hadoop
解决 No module named 'resource' 问题
最近在本地装了一个
pyspark
,在运行的过程中,总会遇到这样的报错。这是jupternotebook的cmd窗口。
yeverwen
·
2018-12-20 14:15
python
配置环境
Spark
pyspark
Ubuntu 下
PySpark
安装
2、spark安装(python版本)3、在jupyternotebook中使用
PySpark
1、什么是ApacheSpark?
庆CP3
·
2018-12-15 17:23
machine
learing
pyspark
pyspark
read.csv一个小坑(转义符居然是")
1.bug描述下面代码一般可正常读取本地csv文件from
pyspark
.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()df=
bjjoy2009
·
2018-12-12 23:55
spark笔记
(
pyspark
aws s3读取数据配置)
csv.java.lang.IllegalAccessError:triedtoaccessmethodorg.apache.hadoop.metrics2.lib.MutableCounterLong问题原因
pyspark
bjjoy2009
·
2018-12-12 22:08
spark笔记
pyspark
读取Oracle数据库并根据字段进行分区
前一篇文章
pyspark
连接oracle中详细讲述了初步连接Oracle的方法,这种连接方式每次只使用一个RDD分区,即numPartitions默认为1.这种方式当表特别大的时候,很可能出现OOM.
pyspark
山木枝
·
2018-12-11 16:16
spark
PyCharm开发
PySpark
程序的配置和实例
对于PyCharm,需要作如下设置:1、安装
pyspark
,它会自动安装py4j2、在editconfiguration中,addcontentroot,选择spark下载包的python/
pyspark
cpongo333
·
2018-12-10 19:04
pyspark
学习笔记(一):Spark Web UI的使用
启动
pyspark
以后,在本地浏览器访问localhost:4040界面,就会看到spark的任务UI界面,查看各任务的信息。
Never-Giveup
·
2018-12-04 11:36
大数据PySpark学习笔记
geodocker-geomesa安装指南
最近研究geo
pyspark
原本以为大数据研究能告一段落,因为。。。 开玩笑的,还要一起建设社会主义呢!!
polong
·
2018-12-02 23:00
pyspark
dataframe将一行分成多行并标记序号(index)
原始数据如下:gidscorea190807980a279894560a357568975from
pyspark
.sql.functionsimportudf,colfrom
pyspark
.sql.typesimportMapType
山木枝
·
2018-12-02 14:55
spark
pyspark
学习之自定义分区
from
pyspark
importSparkContext,SparkConfconf=SparkConf()sc=SparkContext(conf=conf)defMyPartition(x):s
植与恋恋
·
2018-12-02 14:56
spark
idea配置
pyspark
默认python已经配好,并已经导入idea,只剩下
pyspark
的安装1、解压spark-2.1.0-bin-hadoop2.7放入磁盘目录D:\spark-2.1.0-bin-hadoop2.72、
当太阳不再发光
·
2018-11-30 19:00
Hadoop生态之 Spark,
Pyspark
Spark基于内存的迭代计算框架,适合实时统计分析的计算需求Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法特点:1.速度快2.通用性3.容错性两类操作安装目前ApacheSpark主要支持三种分布式部署方式:分别是standalone、Spark
RainyRainbow
·
2018-11-30 19:17
大数据hadoop
Spark完全分布式集群搭建
202.4.136.218master202.4.136.186node1202.4.136.15node2第二步:下载所需软件1.java2.scala3.hadoop4.spark第三步:环境变量配置确保第二步所下的软件的位置与如下对应,
PYSPARK
_PYTHON
donger__chen
·
2018-11-29 23:24
学习笔记
PyCharm+
PySpark
远程调试的环境配置的方法
前言:前两天准备用Python在Spark上处理量几十G的数据,熟料在利用PyCharm进行
PySpark
远程调试时掉入深坑,特写此博文以帮助同样深处坑中的bigdata&machinelearningfans
Mars_myCafe
·
2018-11-29 09:47
pyspark
dataframe列的合并与拆分
from
pyspark
.sqlimportSparkSessionspark=SparkSession.builder\.master("local")\.appName("dataframe_split
山木枝
·
2018-11-25 19:19
spark
Spark连接MySQL数据库并读取数据
(作者:陈玓玏)打开
pyspark
,带驱动的那种用命令行启动
pyspark
时需要加上jdbc的驱动路径:
pyspark
--driver-class-pathD:/Users/chendile/Downloads
小白白白又白cdllp
·
2018-11-24 22:48
数据库
Spark
spark学习之
pyspark
中aggregate()的使用
aggregate():这个函数需要三个zeroValue,seqOp,combOp。zeroValue是初始值,形式是(x,y);seqOp和combOP是两个方法,其中seqOp方法是对每个分区操作,然后combOp对每个分区的结果进行操作。>>>data=[1,2,3,4,5,6,7,8,9]>>>rdd=sc.parallelize(data,2)#分成了两个分区,第一个分区中存放的是1,
植与恋恋
·
2018-11-24 16:16
spark
pandas和spark的dataframe互转
pandas的dataframe转spark的dataframefrom
pyspark
.sqlimportSparkSession#初始化spark会话spark=SparkSession\.builder
TTyb
·
2018-11-21 16:00
pyspark
连接oracle
在本文中,我将ApacheSpark连接到Oracle数据库,直接读取数据,并将其写入DataFrame。随着我们日常生活中产生的数据量的快速增长,大数据技术已经很快进入我们的生活。我们现在使用的工具能够快速有效地解决我们的业务,而不是传统的解决方案。ApacheSpark的使用是一种可以满足我们需求的常用技术。ApacheSpark基于一个可以非常快速和分布式地处理数据的框架。在本文中,我不会详
山木枝
·
2018-11-20 20:26
spark
PySpark
Failed to locate the winutils binary
STEP1:downloadrightversionofwinutils.exe,I'musingspark2.3withhadoop2.7,soIneedtodownloadHadoop2.7'swinutils.exe.https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exeSTEP2
qianleiz
·
2018-11-20 09:27
Big
Data
PySpark
Failed to locate the winutils binary
STEP1:downloadrightversionofwinutils.exe,I'musingspark2.3withhadoop2.7,soIneedtodownloadHadoop2.7'swinutils.exe.https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exeSTEP2
qianleiz
·
2018-11-20 09:27
Big
Data
Spark持续流处理与Flink比对
Spark流处理Spark从2.3版本开始引入了持续流式处理模型,可将流处理延迟降低至毫秒级别,让StructuredStreaming达到了一个里程碑式的高度;使用PandasUDF提升
PySpark
Raini.闭雨哲
·
2018-11-19 19:17
spark
Flink
PySpark
读写Oracle性能深度调优
Spark作为一个分布式计算框架,可以很好的适用于Hadoop。那么Spark是否可以与关系型数据库较好的进行兼容呢?以Spark作为计算,以关系型数据库(例如Oracle)作为存储? 答案当然是可以,笔者经过不断地测试和优化,终于将Spark与Oracle进行了兼容匹配与读写优化。1、环境准备 在本次测试环境中,用6台机器搭建了CDH的Hadoop平台,Spark2.2版本搭配Yarn进
超叔csdn
·
2018-11-17 15:18
geo
pyspark
入门
背景 对于GIS的大数据量实时数据分析和渲染的需求,ArcGISServer和Geoserver、普通空间数据库往往难以满足,对此我一直感觉很沮丧。这时就要寻求大数据的分布式框架帮助。(ArcGIS的ga也可以,但是太贵)现状 我了解到有Geomesa,Geotrellis,GeoWave三大框架。GeoWave和Geomesa都可以支持Geoserver,但是Geotrellis可以
polong
·
2018-11-16 18:00
Spark源代码阅读(一)
spark内核sparkstreaming,spark流计算(基于batch方式)sparksqlMLlib,机器学习lib库GraphX,图计算R,与R语言结合Python,与Python语言结合,
PySpark
define_us
·
2018-11-13 11:45
java
Spark学习笔记二:Spark.SQL
SparkSQL所有的内容位于
pyspark
.sql这个模块下,包含了SparkSession、Column、Row等众多的核心内容。SparkSQL
DanyYan
·
2018-11-06 20:11
Spark
2 、SparkSQL编程入口SparkSession
1.要编写SparkSQL程序,必须通SparkSession对象
pyspark
.sql.SparkSession(sparkContext,jsparkSession=None)在spark1.x之前的版本中
风中一叶(Liko)
·
2018-11-04 18:41
Spark
Spark实战(5) DataFrame基础之GroupBy和Aggregate
文章目录groupBy()AggregationAggregationFunctiongroupBy()from
pyspark
.sqlimportSparkSessionspark=SparkSession.builder.appName
ZenGeek
·
2018-10-31 19:26
Spark
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他