E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
sparkSQL
11(Spark SQL编程)
文章目录以编程方式执行
SparkSQL
查询1、编写
SparkSQL
程序实现RDD转换成DataFrame2、编写
SparkSQL
程序操作HiveContext数据源1、
SparkSql
从MySQL中加载数据
Bitmao888
·
2020-06-29 16:53
spark
大数据
hive
大数据
spark
spark sql对seq值的包装
sparksql
对seq(s1,s2,s3,...)值的包装,seq的每个元素si会被包装成一个Row如果si为一个简单值,则生成一个只包含一个value列的Row如果si为一个N-Tuple,则生成一个包含
中科院_白乔
·
2020-06-29 15:39
SparkSql
内置函数---字符串函数的使用(1)
1.字符串的拼接:concatconcat(str1,str2,…,strN)-返回由str1,str2,…,strN组成的字符串。Note:atlogicforarraysisavailablesince2.4.0.spark-sql>SELECTconcat('xinji','xiaolin');xinjixiaolinspark-sql>SELECTconcat(array(1,2,3),a
xiaolin_xinji
·
2020-06-29 12:40
Spark
[译]Spark 2.1.0官方文档翻译
Spark支持一个丰富的高层工具集,包括
SparkSQL
用于SQL和结构化数据处理,MLLib用于机器
steanxy
·
2020-06-29 11:04
SparkSQL
之DataSet
Dataset是具有强类型的数据集合,需要提供对应的类型信息。创建一个DataSet吧先1)创建一个样例类scala>caseclassPerson(name:String,age:Long)definedclassPerson2)创建DataSetscala>valcaseClassDS=Seq(Person("Andy",32)).toDS()caseClassDS:org.apache.sp
王傲旗的大数据之路
·
2020-06-29 11:18
Spark
SparkSQL
之一张贴讲明白RDD丶DataFrame丶DataSet
先上个图在
SparkSQL
中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
王傲旗的大数据之路
·
2020-06-29 11:18
Spark
SparkSQL
之
SparkSQL
编程入门
SparkSession新的起始点在老的版本中,
SparkSQL
提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询
王傲旗的大数据之路
·
2020-06-29 11:17
Spark
SparkSQL
之一张贴告诉你什么是
SparkSQL
什么是
SparkSQL
?
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
王傲旗的大数据之路
·
2020-06-29 11:17
Spark
sparkSQL
---不同数据源的读写操作
sparkSQl
可以读取不同数据源的数据,比如jdbc,json,csv,parquet执行读操作就用sparkSession.read.文件类型,执行写操作就用SparkSession.write.文件类型首先创建一个
weixin_43866709
·
2020-06-29 10:58
spark
sparkSQL
---Dataset讲解
在
sparkSQL
中推出了一个叫做Dataset的数据集,它是对RDD的一个智能的封装。
weixin_43866709
·
2020-06-29 10:58
spark
SparkSQL
--实现求每个学科老师访问量的排名
这里只记录一下用
SparkSQL
实现求每个学科老师访问量的排名。
weixin_43866709
·
2020-06-29 10:58
spark
sparkSQL
入门--1.x和2.x编程的区别
SparkSQL
1.什么是
sparkSQL
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
weixin_43866709
·
2020-06-29 10:58
spark
SparkSQL
插入数据到MongoDB
首先导入POM文件4.0.0com.itcastday20200527_011.0-SNAPSHOTaliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/jbosshttp://repository.jb
真情流露哦呦
·
2020-06-29 09:04
MonggoDB
Spark
SparkSql
SparkSQL
读取MongoDB数据
首先导入POM文件4.0.0com.itcastday20200527_011.0-SNAPSHOTaliyunhttp://maven.aliyun.com/nexus/content/groups/public/clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/jbosshttp://repository.jb
真情流露哦呦
·
2020-06-29 09:04
Spark
MonggoDB
Spark算子调优—基本的算子调优
RDD算子调优算子调优一:mapPartitions算子调优二:foreachPartition优化数据库操作算子调优三:filter与coalesce的配合使用算子调优四:repartition解决
SparkSQL
sixgold
·
2020-06-29 03:20
大数据
SparkSQL
学习笔记---SparkStreaming
一、大数据实时计算原理二、SparkStreaming1、SparkStreaming简介SparkStreaming是SparkCoreAPI的一种扩展,可以用于进行大规模,高吞吐,容错的实时数据流的处理,支持从很多数据源中读取数据,必粗Kafka,FlumeTwitter,ZeroMQ或者是TCPSocket。并且能够使用类似高阶函数的复杂算法来进行数据的处理,比如map、reduce、joi
PZ~浪味仙
·
2020-06-29 03:32
Spark
SparkSQL
DSL开发
importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.expressions.Windowimportorg.apache.spark.sql.hive.HiveContextimportorg.apache.spark.{SparkConf,SparkContext}caseclassPerson2(name:String
weixin_40652340
·
2020-06-29 00:22
大数据
SparkSQL
============
SparkSQL
的前身Shark概述=================================在三四年前,Hive可以说是SQLonHadoop的唯一选择,负责将SQL编译成可扩展的
weixin_40652340
·
2020-06-29 00:22
大数据
Spark机器学习流程(ML Pipeline)(持续更新ing)
我们可以使用SQLContext读取文本文件创建DF或将RDD转为DF,也可以使用
SparkSQL
来操作。DF可以存储不同的数据类型,文字、特
NoOne-csdn
·
2020-06-28 23:02
机器学习
pyspark
Spark SQL之DataFrame的使用
目录一:
sparksql
作用二:DataFrame三:SQLContext与HiveContext四:创建DataFrame以及常用方法一:
sparksql
作用
SparkSQL
是Spark中的一个模块主要用于进行结构化数据的处理
威少SOS
·
2020-06-28 23:20
#
Spark
SQL
Structured Streaming
StructuredStreaming是一个scalable和fault-tolerant流处理引擎,该引擎是构建
SparkSQL
之上。可以使得用户以静态批处理的方式去计算流处理。
LJiaWang
·
2020-06-28 22:53
spark
Spark SQL
SparkSQL
SparkSQL
是构建在SparkRDD之上一款ETL(ExtractTransformationLoad)工具(类似Hive-1.x-构建在MapReduce之上)。
LJiaWang
·
2020-06-28 22:22
spark
电商用户行为分析大数据平台
数据分析师管理分析现有状况改进产品设计调整公司战略业务提升业绩营业额以及市场占有率提升技术简介业务模块用户访问session分析页面单跳转转化率统计热门商品离线统计广告流量实时统计技术Spark离线计算和实时计算业务SparkCore
SparkSQL
SparkStreaming
oifengo
·
2020-06-28 22:14
Spark
spark:RDD和DataFrame和DataSet三者间的区别
RDDvsDataFramesvsDataSet在
SparkSQL
中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
花和尚也有春天
·
2020-06-28 21:15
RDD
DataFrame
DataSet
Spark
SparkSql
Spark小文件合并
1.问题描述最近使用
sparksql
执行etl时候出现了,最终结果大小只有几百k,但是小文件一个分区有上千的情况。
一直青蛙
·
2020-06-28 20:45
BigData
##主流SQL on Hadoop框架选择
www.csdn.net/article/2015-07-24/2825293着眼当下的SQLonHadoop产品,最吸引人的无疑是下面几个:Hive系的HiveonTez,也就是我们经常说的Stinger;Spark系的
SparkSQL
葡萄喃喃呓语
·
2020-06-28 18:08
spark程序优化总结
我们用的spark主要是
sparksql
框架,使用
sparksql
实现数据的清洗、抽取以及计算。
ZPPenny
·
2020-06-28 13:38
SparkSQL
---UDAF
packagesqlspark.Day04importjava.langimportorg.apache.spark.sql.{DataFrame,Dataset,SparkSession}objectUdafText05{defmain(args:Array[String]):Unit={//创建sparksessionvalspark:SparkSession=SparkSession.bui
weixin_34148340
·
2020-06-28 12:50
云计算大数据面试题,云计算大数据面试题集锦
大数据领域数据类型1.1有界数据一般批处理(一个文件或者一批文件),不管文件多大,都是可以度量mapreducehivesparkcore
sparksql
1.2无界数据源源不断的流水一样(流数据)StormSparkStreaming
weixin_34109408
·
2020-06-28 11:43
yarn资源多租户隔离
技术栈实时计算:sparkstreaming+kafka+yarn离线计算:
sparkSQL
+yarn当前yarn集群资源如图image.png目前公司离线计算和实时计算都是跑在一个yarn集群,最近离线计算资源占用非常高
张志_koen_zhang
·
2020-06-28 11:53
kylin与superset集成实现数据可视化
而且对服务器内存的要求也不像
sparksql
那么高,经过多方面的优化,数据膨胀率甚至可以控制在100%以内。它利用hive做预
weixin_34014555
·
2020-06-28 09:16
中秋福利 | 10本技术图书(编程语言、数据分析等)免费送
中秋将至,技术宅们有福利了,网易云社区联合博文视点为大家送来一大波技术图书,内容涉及Kubernetes、Go语言、OpenResty、Python编程、
SparkSQL
、PyTorch等,话不多说,“
weixin_33884611
·
2020-06-28 07:31
EMR Druid 探索(一)
现今有一些非常热的SQLonHadoop解决方案或者基于传统数据库技术的MPP方案,前者比如Hive、Impala、
SparkSQL
、Presto等,后者比
weixin_33781606
·
2020-06-28 05:51
开源OLAP引擎测评报告(
SparkSql
、Presto、Impala、HAWQ、ClickHouse、GreenPlum) ...
本文为博主公司原创文章,仿冒必究,转载请回复留言**开源OLAP引擎测评报告(
SparkSql
、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO郭炜序现在大数据组件非常多
weixin_33724659
·
2020-06-28 04:04
Spark的介绍:前世今生
Spark包含了大数据领域常见的各种计算框架:比如SparkCore用于离线计算,
SparkSQL
用于交互式查询,
weixin_33724570
·
2020-06-28 04:03
spark基础知识汇总
Accumulator(累加变量)内存管理相关配置堆内内存堆外内存Execution内存和Storage内存动态调整Task之间内存分布SparkCorespark的shuffle内存管理——Tungsten
SparkSQL
Parser
weixin_30851409
·
2020-06-28 01:29
idea设置控制台不打印日志
这样做的好处是当想打印数据到控制台查看就特别方便,这个在大数据
sparksql
使用的多。当然如果代码报错也会打印,这个不必担心。
weixin_30755393
·
2020-06-28 00:35
Spark-SQL之DataFrame操作大全
SparkSQL
中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。
weixin_30355437
·
2020-06-27 18:50
前世今生:Hive、Shark、spark SQL
前世今生:Hive、Shark、
sparkSQL
Hive(http://en.wikipedia.org/wiki/Apache_Hive)(非严格的原文顺序翻译)ApacheHive是一个构建在Hadoop
weixin_30248399
·
2020-06-27 15:24
大数据ETL实践探索(3)---- 大数据ETL利器之pyspark
文章大纲大数据ETL系列文章简介pysparkDataframeETLsparkdataframe数据导入Elasticsearchdataframe及环境初始化清洗及写入数据到Elasticsearch
sparkSQL
Dataframe
shiter
·
2020-06-27 13:26
pyspark
spark
大数据
数据清洗
大数据ETL实践探索
从 Hive 大规模迁移作业到 Spark 在有赞的实践
作者:胡加华团队:大数据团队一、前言在2019年1月份的时候,我们发表过一篇博客
SparkSQL
在有赞大数据的实践,里面讲述我们在Spark里所做的一些优化和任务迁移相关的内容。
过往记忆
·
2020-06-27 12:24
SparkSql
连接hive表出现的问题
Userclassthrewexception:org.apache.spark.sql.AnalysisException:Tablenotfound在代码中添加:hiveContext.setConf("hive.metastore.uris","thrift://node1:9083")Userclassthrewexception:classnotfound:com.mysql.jdbc.
vxkangkang
·
2020-06-27 11:15
大数据学习
Hadoop学习笔记(六)(Spark + Flink + Beam)
DBAS(BerkeleyDataAnalyticsStack)Mesos,HDFS,Tachyon(基于内存的文件系统),Spark(核心)自框架:SparkStreaming,GraphX,MLib,
SparkSQL
无影风Victorz
·
2020-06-27 11:02
大数据
基础配置
Spark生态系统BDAS介绍
其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎
SparkSQL
和Shark,提供机器学习功能的系统MLbase及底层的分布式机器学习库MLlib、并行图计算框架GraphX
Albert陈凯
·
2020-06-27 11:56
实时数仓 | 你需要的是一款强大的 OLAP 引擎
大数据领域开源OLAP引擎包括不限于Hive、Hawq、Presto、Kylin、Impala、
SparkSQL
、Druid、Clickhouse、Greeplum等等。
GitChat的博客
·
2020-06-27 10:28
spark2.x shell 客户端操作
sparkSQL
1.客户端启动shell进入spark安装目录bin/spark-shell--masterspark://IP:7077--executor-memory1g2.scala操作(1)把HDFS上的文件映射为表启动sparkSession对象:valspark=org.apache.spark.sql.SparkSession.builder().appName("SparkSessionZips
语旅
·
2020-06-27 10:29
hadoop
spark
mysql
Spark SQL 解析-转换-执行过程
UnresolvedLogicPlan逻辑执行计划生成4.AnalyzedLogicalPlan逻辑执行计划生成5.OptimizedLogicPlan逻辑执行计划生成6.SparkPlan物理执行计划的生成前文
SparkSQL
beTree_fc
·
2020-06-27 07:53
spark源码
spark dataframe 一列分隔多列,一列分隔多行(scala)
首先上原始数据集mRecord:一,合并content列,将name相同的content合并到一行,用逗号隔开:mRecord.createOrReplaceTempView("test");valDf1=
sparkSQL
.sql
暮之雪
·
2020-06-27 05:43
spark
sparksql
实现多表关联查询
1.准备数据以json格式为例student表{"sid":"S001","sanme":"zhangsan","age":"12","gender":"female"}{"sid":"S002","sanme":"lisi","age":"13","gender":"male"}{"sid":"S003","sanme":"wangwu","age":"14","gender":"male"}{
时间的快慢
·
2020-06-27 05:27
sparksql
SparkSQL
ThriftServer配置及连接测试
一.ThriftServer介绍ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问
SparkSQL
的数据。
泪痕残
·
2020-06-27 05:56
sparksql
上一页
51
52
53
54
55
56
57
58
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他