E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
Spark SQL系列------1. Spark SQL 物理计划的Shuffle实现
SparkSQL
物理计划要到Spark-core执行,需要将
SparkSQL
物理计划转化成RDD,并且建立RDD之间的依赖关系。
heayin123
·
2020-06-27 04:30
大数据
spark
《从0到1学习spark》-- spark前世今生
2009年诞生于加州大学伯克利分校AMPLab2010年开源2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含
SparkSQL
小强的进阶之路
·
2020-06-27 04:29
Presto、Impala性能比较
下面是Presto、Impala这两种典型的内存数据库的简单测试比较,当然这种内存数据库类似的还有
sparksql
,这种数据库在大数据量,多表关联查询时,会展现出自己的优势,下面是一组impala和presto
TracyGao01
·
2020-06-27 04:23
presto
impala
spark-概念
本文长篇介绍了spark基本概念和sparkStreaming、
sparksql
请仔细阅读,红色标注的是我认为比较重要的部分。
双斜杠少年
·
2020-06-27 03:27
5.5
spark
SparkSQL
中的内置函数
使用
SparkSQL
中的内置函数对数据进行分析,
SparkSQL
API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而DataFrame天生就是"Adistributedcollectionofdataorganizedintonamedcolumns
_水木_
·
2020-06-27 03:47
SparkSQL
hive 文件存储parquet格式,
sparkSql
解析部分字段为null
hive版本2.1.0,hdfs上同一份数据(1)用hive建表,部分字段hive读取有值,
sparksql
读取值为nullCREATEEXTERNALTABLEbusiness_log.rule_business_log2
蓝天688
·
2020-06-27 02:38
hive
Spark MLlib中基于DataFrame的 pipeline介绍
DataFrame:这个MLAPI使用
SparkSQL
的DataFrame作为一个ML数据集,它可以容纳各种数据类型。例如,aDataFrame具有可以存储文本,特征向量,真实标签和预测值的不
knowfarhhy
·
2020-06-27 02:14
spark
Spark机器学习数据流水线
在之前的“用ApacheSpark做大数据处理”系列文章中,我们学习了ApacheSpark框架,介绍了Spark和它用作大数据处理的不同库(第一部分),
SparkSQL
库(第二部分),Spark流(第三部分
rolin-刘瑞
·
2020-06-26 23:05
spark
mllib
使用Spark SQL的临时表解决一个小问题
最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用
sparksql
访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可:
三劫散仙
·
2020-06-26 22:53
spark
spark
hive内部分区表(ORC格式)新增字段后出现的问题
在新增字段后的新分区内查询数据正常,在新增字段后的旧分区内查询数据异常2、分区删不掉,一直卡着不动3、在执行插入分区的动作后,数据文件中已经有新字段值了,但是在查询的时候新字段的值还是显示为null4、利用
sparkSQL
听见下雨的声音hb
·
2020-06-26 21:02
hive
Spark-SQL从MySQL中加载数据以及将数据写入到mysql中(Spark Shell方式,Spark SQL程序)
1.JDBC
SparkSQL
可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。
to.to
·
2020-06-26 20:06
#
Spark(大数据分析引擎)
大数据IMF传奇行动绝密课程第100-101课:使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例
使用SparkStreaming+
SparkSQL
+Kafka+FileSystem综合案例1、项目分析流程图2、项目代码实战Flumesink到Kafka需要一个jar包支持https://github.com
tom_8899_li
·
2020-06-26 20:29
Spark
Streaming
入门大数据---
SparkSQL
联结操作
一、数据准备本文主要介绍
SparkSQL
的多表连接,需要预先准备测试数据。
一线大数据
·
2020-06-26 17:00
入门大数据---
SparkSQL
常用聚合函数
一、简单聚合1.1数据准备//需要导入
sparksql
内置的函数包importorg.apache.spark.sql.functions.
一线大数据
·
2020-06-26 17:00
入门大数据---
SparkSQL
外部数据源
一、简介1.1多数据源支持Spark支持以下六个核心数据源,同时Spark社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。CSVJSONParquetORCJDBC/ODBCconnectionsPlain-textfiles注:以下所有测试文件均可从本仓库的resources目录进行下载1.2读数据格式所有读取API遵循以下调用格式://格式DataFrameReader.fo
一线大数据
·
2020-06-26 16:00
基于Flink1.8 深入理解Flink Sql执行流程 + Flink Sql语法扩展
FlinkSQL引擎:Calcite简述FlinkTable/SQL执行流程以FlinkSQLDemo为切入,结合调试过程,深入理解FlinkStreamingSQLCodeGenflink语法扩展对比
SparkSQL
super_man_0820
·
2020-06-26 16:47
Flink
Spark-core之RDD核心概念
一、Spark包括什么spark的核心是SparkCore,其中上面的
SparkSql
对接的是Hive等结构化查询,SparkStreaming是对接的流式计算,后面的那两个也是主要用在科学任务中,但是他们的基础都是
student__software
·
2020-06-26 15:15
Spark
Sparksql
基本使用
packagecom.spark.week3importorg.apache.spark.sql.SparkSessionobjectOne{System.setProperty("hadoop.home.dir","D:/soft/hadoop/hadoop-2.7.3")defmain(args:Array[String]):Unit={valspark=SparkSession.builde
star5610
·
2020-06-26 14:33
Spark
spark
大数据工程师技能图谱
机器学习工具MahoutSparkMlibTensorFlow(Google系)AmazonMachineLearningDMTK(微软分布式机器学习工具)数据分析/数据仓库(SQL类)PigHivekylin
SparkSQL
唐大麦
·
2020-06-26 14:22
-------【大数据】
SparkSQL
+RDD计算句子相似性!
Spark版本:2.1Python版本:2.7.12之前想做一个检索式的智能对话,其实只用SparkRDD是完全可以的,但是想实用一下
SparkSQL
,所以有点强搬硬套的感觉,不过没关系,干货就是干货,
文哥的学习日记
·
2020-06-26 13:56
第70课:
SparkSQL
内置函数解密与实战学习笔记
第70课:
SparkSQL
内置函数解密与实战学习笔记本期内容:1
SparkSQL
内置函数解析2
SparkSQL
内置函数实战
SparkSQL
的DataFrame引入了大量的内置函数,这些内置函数一般都有CG
梦飞天
·
2020-06-26 13:46
Spark
基于
SparkSql
的日志分析实战
目录日志数据内容用户行为日志分析的意义离线数据处理流程需求分析数据清洗解析访问日志使用github上的开源项目对日志进行统计分析统计最受欢迎的TOPN的视频访问次数按照地市统计imooc主站最受欢迎的TOPN课程按流量统计imooc主站最受欢迎的TOPN课程调优点EChart展示图形化界面静态数据展示动态数据展示日志数据内容访问系统属性,操作系统,浏览器访问特征,点击的url,从那个url跳转过来
Rachel_Channing
·
2020-06-26 12:31
Spark
SparkSQL
------SQL,DataFrame,DataSet
网上查了点牛人资料,给大家做个总结归类,大致如下:相比于SparkRDDAPI,
SparkSQL
包含了对结构化数据和在其上的运算的更多信息,
SparkSQL
使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便
汪本成
·
2020-06-26 11:42
大数据-sparkSQL
入门大数据---
SparkSQL
_Dataset和DataFrame简介
一、
SparkSQL
简介
SparkSQL
是Spark中的一个子模块,主要用于操作结构化数据。
一线大数据
·
2020-06-26 10:00
hive数据导入到hbase的方式总结
2.使用
sparksql
操作完hive处理好之后入hbase
sheep8521
·
2020-06-26 08:13
hbase
3.如何安装Apache Spark
ApacheSpark1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8
SparkSQL
9SparkStreaming
全能程序猿
·
2020-06-26 07:10
Spark SQL从入门到精通
本文主要是帮助大家从入门到精通掌握
sparksql
。篇幅较长,内容较丰富建议大家收藏,仔细阅读。更多大数据,spark教程,请点击阅读原文加入浪尖知识星球获取。微信群可以加浪尖微信158570986。
大数据星球-浪尖
·
2020-06-26 05:29
Spark的Ml pipeline
DataFrame:这个MLAPI使用
SparkSQL
的DataF
大数据星球-浪尖
·
2020-06-26 05:26
《
SparkSQL
内核剖析》【Aggregation篇】
这篇文章讨论
SparkSQL
中聚合相关的内容。聚合表达式我们先来看一条简单的聚合语句df.groupBy("xxx").count("yyy")这样一个聚合查询,在
SparkSQL
中是怎么表示的呢?
renqHIT
·
2020-06-26 05:54
Spark
Spark SQL基础概述
文章目录第一章
SparkSQL
概述
SparkSQL
官方介绍
SparkSQL
的特点SQL优缺点Hive和
SparkSQL
SparkSQL
数据抽象DataFrameDataSetRDD、DataFrame、
九月木樨
·
2020-06-26 04:40
Spark
大数据全家桶
hive函数大全
hive函数大全2018-07-0619:57:03博学天下阅读数1782更多分类专栏:数据库sparkhivesql
sparkSql
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明
宇下住一横
·
2020-06-26 03:26
hive
hive内置函数介绍
Spark面试汇总
重点)4、请列举Spark的transformation算子(不少于5个)(重点)5、请列举Spark的action算子(不少于5个)(重点)6、简述Spark的两种核心Shuffle(重点)7、简述
SparkSQL
千千匿迹
·
2020-06-26 03:06
Spark
【Spark】
SparkSQL
入门解析(一)
【一】简介(本文部分图片来自网络,侵删)
SparkSQL
是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用【二】特点【2.1】易整合
SparkSQL
默默走开
·
2020-06-26 02:37
Spark
Spark SQL,如何将 DataFrame 转为 json 格式
用过
SparkSQL
应该知道,Sparkdataframe本身有提供一个api可以供我们将数据转成一个JsonArray,我们可以在spark-shell里头举个栗子来看一下。
qq_43713668
·
2020-06-26 02:28
网络
代码
sparksql
的三种join实现
sparksql
的三种join实现引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。
大尾巴狼的觉悟
·
2020-06-26 02:43
大数据
hadoop
技术
IT
阿里云EMR技术专家 “健身” 浅析Hive/Spark SQL读文件时的输入任务划分
Hive以及
SparkSQL
等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。
乔治大哥
·
2020-06-25 22:52
#
大数据
Hive Spark Api 查询、写入、注册UDF函数,
SparkSql
简单操作
HiveSparkApi查询、写入、注册UDF函数,
SparkSql
操作HiveSparkinsert/overwriteobjectReadKerberosHive{caseclassEmployee
大大大大大大太阳
·
2020-06-25 17:40
Hive
SparkSql
篇3:
SparkSql
读写kudu
SparkSql
篇3:
SparkSql
读写kuduspark操作kudu的方式有很多,spark封装了KuduContext,里面有kudu的增删改查本文主要正对
sparksql
,利用外部数据源方式,直接从
叮咚菜鸟许某人
·
2020-06-25 14:30
sparksql
spark
kudu
sparksql
的agg函数,作用:在整体DataFrame不分组聚合
1、agg(expers:column*)返回dataframe类型,同数学计算求值df.agg(max("age"),avg("salary"))df.groupBy().agg(max("age"),avg("salary"))2、agg(exprs:Map[String,String])返回dataframe类型,同数学计算求值map类型的df.agg(Map("age"->"max","s
邢小成
·
2020-06-25 12:45
1.
sparksql
读取sql的相关处理操作
19/11/1220:32:53INFOCodeGenerator:Codegeneratedin12.9619ms19/11/1220:32:53INFOCodeGenerator:Codegeneratedin11.6207ms19/11/1220:32:53INFOMemoryStore:Blockbroadcast_2storedasvaluesinmemory(estimatedsize
qq_35561207
·
2020-06-25 09:08
大数据组件
1.
sparksql
的通过 case class 创建 DataFrames(反射)
importorg.apache.spark.sql.SQLContextimportorg.apache.spark.{SparkConf,SparkContext}objectTestDataFrame1{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("RDDToDataFrame").setMaster
qq_35561207
·
2020-06-25 09:37
大数据组件
sparksql
之通过 structType 创建 DataFrames(编程接口)
importorg.apache.avro.generic.GenericData.StringTypeimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.types.{IntegerType,StructField,StructType}importorg.apache.spark.sql.{DataFrame,Row,SQLCont
qq_35561207
·
2020-06-25 09:37
大数据组件
葵花宝典--
SparkSQL
一、概述1、定义用于处理结构化数据的spark模块,提供了结构化数据和执行计算的更多信息运行时讲
sparksql
转换成RDD进行运算,比我们自己写的RDD效率要高,它进行了优化;并且提供了两个抽象类:DadaFrame
张薄薄
·
2020-06-25 07:45
Hive之快速入门以及安装部署
1.生产中常使用的SQLonhadoop框架主流sqlonhadoop有Hive、
SparkSQL
、Phonix扩展1:hadoop由hdfs,yarn,mr组成,守护进程nn与rm容易出现单点故障,而生产中要求是任何一个流程都要考虑到单点故障
qq_32641659
·
2020-06-25 06:10
Hive
Hive入门
Hive安装
单点故障
高可用
支持在线大数据SQL查询平台开源项目
一、XQL/IQL基于
SparkSQL
实现了一套即席查询服务,具有如下特性:优雅的交互方式,支持多种数据源/接收器,多数据源混算spark常驻服务,基于zookeeper的引擎自动发现负载均衡,多个引擎随机执行多会话模式实现并行查询采用
灬点点
·
2020-06-25 06:21
大数据
SparkSQL
统计某天每个用户访问页面次数前N的的页面
前两天有小老弟面试遇到如下问题:那应该如何完成这个SQL语句的书写呢?测试数据:valrdd=spark.sparkContext.makeRDD(List(("2018-01-01",1,"www.baidu.com","10:01"),("2018-01-01",2,"www.baidu.com","10:01"),("2018-01-01",1,"www.sina.com","10:01")
高志遠
·
2020-06-25 05:05
Spark
Spark技术体系与MapReduce,Hive,Storm几种技术的关系与区别
大数据体系架构:Spark内存计算与传统MapReduce区别:
SparkSQL
与Hive的区别:
SparkSQL
替换的是Hive的查询引擎,Hive是一种基于HDFS的数据仓库,并且提供了基于SQL模型的
Scathon
·
2020-06-25 05:50
大数据
spark
hadoop
mapreduce
storm
MongoDB与Spark整合的环境搭建
Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了
SparkSQL
红警专家
·
2020-06-25 05:21
JAVA
大数据
Spark SQL和 presto 访问数据源的对比分析
直观感受是使用
SparkSQL
比通过presto写SQL的查询速度更快开发python程序访问Presto可以借助pyhive工具文章目录
SparkSQL
是什么?
大数据AI笔记
·
2020-06-25 04:58
大数据
Flume 入门
(
SparkSQL
可代替)如果日志在其他机器上,就有了Flume的产生;Flume就是干日志采集的事情。2)FromoutsideToinside:如何使用集群外的数据,得先抽取到Hadoop集群中。
qq_30130043
·
2020-06-25 04:01
上一页
52
53
54
55
56
57
58
59
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他