E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkSQL
【Spark篇】---
SparkSQL
on Hive的配置和使用
一、前述SparkonHive:Hive只作为储存角色,Spark负责sql解析优化,执行。二、具体配置1、在Spark客户端配置HiveOnSpark在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml:配置hive的metastore路径hive.metastore.uristhrift://node1:90832、启动Hive的metastore服务
L先生AI课堂
·
2018-02-09 16:26
Spark汇总
spark sql 的应用实践
背景介绍目前spark主要应用在streaming、ETL和ML场景上,本文主要是分享我们ETL场景从hiveSQL到
sparkSQL
的迁移实践。
xiaoL_clo
·
2018-02-08 15:29
spark
数据挖掘工具---Spark SQL使用
SparkSQL
你需要知道的十件事来源:
SparkSQL
使用场景Ad-hocqueryingofdatainfilesETLcapabilitiesalongsidefamiliarSQLInteractionwithexternalDatabasesScalablequeryperformancewithlargerclustersLiveSQLanalyticsoverstreamingdat
diggerTT
·
2018-02-07 15:37
数据挖掘工具
spark
数据
SparkSQL
创建数据库报错
错误信息org.apache.spark.sql.AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(message:Unabletocreatedatabasepathfile:/D:/Java_Tools/spark/bin/spark-warehouse/test2.db,faile
小小Tiny
·
2018-02-07 14:02
大数据
(译) pyspark.sql.DataFrame模块
classpyspark.sql.DataFrame(jdf,sql_ctx)分布式的列式分组数据集(1.3版本新增)一个DataFrame对象相当于
SparkSQL
中的一个关系型数据表,可以通过SQLContext
cjhnbls
·
2018-02-07 01:33
Hive函数实战
1、数据介绍首先我们产生我们的数据,使用
sparksql
来产生吧:valdata=Seq[(String,String)](("{\"userid\":\"1\",\"action\":\"0#222\
文哥的学习日记
·
2018-02-06 19:00
spark常见问题处理
1、sparkthriftserver报以下错误,其他诸如hive/
sparksql
等方式均正常ERRORActorSystemImpl:Uncaughtfatalerrorfromthread[sparkDriverActorSystem-akka.actor.default-dispatcher
ZhaoYingChao88
·
2018-02-06 16:36
spark
SparkSQL
SparkSQL
的前身是Shark,它抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-MemoryColumnarStorage)、Hive兼容性等,重新开发了
SparkSQL
Zzreal
·
2018-02-03 19:33
spark
Spark SQL函数之分组排序
需求:根据class分组对组内的age进行排序原表结果
SparkSQL
:SELECTname,age,class,row_number()over(partitionbyageorderbyclass)
果果的爸爸
·
2018-02-02 15:13
spark
sparkSQL
结合hive的入门程序
学习
sparkSQL
时最简单的一个示例,是用json格式的文件充当hive表,并注册为临时表,然后用hiveQL的API来查询得出需要的结果。
gamedevv
·
2018-01-30 01:33
【大数据】➣
Spark
sparkSQL
结合hive的入门程序
学习
sparkSQL
时最简单的一个示例,是用json格式的文件充当hive表,并注册为临时表,然后用hiveQL的API来查询得出需要的结果。
gamedevv
·
2018-01-30 01:33
【大数据】➣
Spark
Spark程序开发规范
这是通过命令行传入参数的友好性提示和规范编码就体现出来了,下面我将整理【Scala语言开发Spark程序的常用模板】packagespark.
sparkSQL
object
SparkSQL
Twitter{
gamedevv
·
2018-01-29 15:44
【大数据】➣
Spark
Scala Spark Map DataFrame Missing Paramenter Type
在学习
sparkSQL
时,按照书中的例子敲了代码,但是报出maprow:MissingParamenterType的错误,意思就是没有指定row变量的类型。
gamedevv
·
2018-01-28 20:35
SparkSQL
Map
DataFrame
Missing
Parament
Missing
Paramenter
Type
【大数据】➣
Spark
【Spark】
SparkSQL
针对DataSource表的Cache优化
Spark内部针对DataSource表的查询做了缓存优化,使得在同一任务中多次访问同一张DataSource表场景下可以跳过重复的获取表meta数据过程,以提升表读取性能。缓存的内容是表名和其对应的LogicalRelation。缓存机制:SQL语法解析后进行Analyzer的过程,因为我们关注表的缓存机制,所以只看表分析中的一个关键Rule:ResolveRelations。Analyzer对
PowerMe
·
2018-01-23 17:03
大数据学习路线(完整详细版)
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
符智生
·
2018-01-20 12:00
SPARK SQL - update MySql table using DataFrames and JDBC
I'mtryingtoinsertandupdatesomedataonMySqlusing
SparkSQL
DataFramesandJDBCconnection.I'vesucceededtoinsertnewdatausingtheSaveMode.Append.IsthereawaytoupdatethedataalreadyexistinginMySqlTablefrom
SparkSQL
dufufd
·
2018-01-19 08:48
Spark
Spark
A.SparkStreamingBMlibCGraphxDSparkR2.下面哪个端口不是spark自带服务的端口(C)A.8080B.4040C.8090D.180803.spark1.4版本的最大变化(B)A
sparksql
Release
徐茂盛
·
2018-01-17 17:16
大数据
hadoop
spark大数据架构初学入门基础详解
Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算
SparkSQL
交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)
三万_chenbing
·
2018-01-16 14:05
修改CDH进程NN、DN日志输出为JSON格式
我们知道
SparkSQL
是可以直接读取JSON数据的,如果我们要通过Flume采集日志通过Spark处理后进行可视化。那么将日志改造成JSON后在Spark处理阶段就非常方便了。
A_ChunUnique
·
2018-01-15 12:42
Hadoop
【
SparkSQL
】partitionColumn, lowerBound, upperBound, numPartitions的理解
如何加快数据的读取过程利用
SparkSQL
读取数据库数据的时候,如果数据量很大,那么在读取数据的时候就会花费大量的时间,因此,怎么让数据并行读取加快读取数据的速度呢?
KingWang_WHU
·
2018-01-14 09:33
Spark
Spark SQL在100TB上的自适应执行实践
作者:汪愈舟俞育才郭晨钊程浩(英特尔),李元健(百度)责编:钱曙光([emailprotected])
SparkSQL
是ApacheSpark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据
·
2018-01-13 15:00
Structured Streaming整合kafka
本文介绍一种常用的方式:StructuredStreaming读取kafka数据,并使用
sparksql
过滤,最终输出到终端。
董云龙
·
2018-01-11 18:25
Spark
pandas
DataFrame,同
SparkSQL
中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结
智勇双全的小六
·
2018-01-10 19:24
【大数据】最新大数据学习路线(完整详细版,含整套教程)
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
符智生
·
2018-01-05 20:06
大数据
【大数据】最新大数据学习路线(完整详细版,含整套教程)
,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,
sparksql
符智生
·
2018-01-05 20:06
大数据
SparkSql
中外连接查询中的谓词下推规则
SparkSql
SparkSql
是架构在spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL可以直接使用scala
opensure
·
2018-01-04 19:55
spark
JavaSpark-
sparkSQL
-介绍
SparkSession.builder():importorg.apache.spark.sql.SparkSession;SparkSessionspark=SparkSession.builder().appName("Java
SparkSQL
b
M99的羽子
·
2018-01-03 00:51
spark
spark SQL(六)性能调整
sparkSQL
性能调整对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。
junzhou134
·
2017-12-30 14:46
spark
spark SQL (四)数据源 Data Source----Parquet 文件的读取与加载
sparkSQL
Parquet文件的读取与加载是由许多其他数据处理系统支持的柱状格式。
SparkSQL
支持阅读和编写自动保留原始数据模式的Parquet文件。
junzhou134
·
2017-12-30 12:00
spark
spark SQL(三)数据源 Data Source----通用的数据 加载/保存功能
SparkSQL
的数据源------通用的数据加载/保存功能
SparkSQL
支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。
junzhou134
·
2017-12-30 11:25
spark
Hive部署
什么是HiveHive是一个翻译器,它可以将SQL语句翻译成一个MapReduce程序常见的数据分析引擎:Hive,Pig,Impala,
SparkSQL
Hive是一个基于Hadoop之上的数据分析引擎
菜鸟的征程
·
2017-12-29 16:53
hive
hadoop
使用Spark SQL的临时表解决一个小问题
阅读更多最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用
sparksql
访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL
qindongliang1922
·
2017-12-28 18:00
spark
Spark SQL及实例
什么是
SparkSQL
SparkSQL
是ApacheSpark用于处理结构化数据的模块。
SparkSQL
允许使用SQL或熟悉的DataFrameAPI查询Spark程序内的结构化数据。
moledyzhang
·
2017-12-27 19:54
spark
Spark Python API Docs(part two)
pyspark.sqlmoduleModulecontext
SparkSQL
和DataFrames中的重要类:pyspark.sql.SparkSession-DataFrame和SQL功能的主要入口点
盗梦者_56f2
·
2017-12-25 20:28
SparkSQL
操作Hive表数据
启动Hadoop:./sbin/start-all.sh启动Spark-Shell:./bin/spark-shell--masterlocal[2]scala>spark.sql("showtables").show+--------+---------+-----------+|database|tableName|isTemporary|+--------+---------+-------
zghgchao
·
2017-12-24 10:18
spark
Hive
Spark编程、RDD 功能介绍、RDD 元素变换、RDD 元素操作、DATAFRAME、
SparkSQL
spark中起到driver和worker之间的桥梁的是?SparkContextsc组织rdd之间依赖关系划分stage的是DAGSchedule管理taskSet的是?TaskSchedule说出rdd中多台机上(worker)上执行的懒算子(变换)mapflatMapjoin(两个rdd数据加一起)groupByKeyreduceByKeyfilter说出rdd中一台机上(driver)上执
free97zl
·
2017-12-23 16:53
大数据
Spark DataFrame与RDD互操作
DataFrame与RDD的互操作1.
SparkSQL
支持将现有的RDDs转换为数据集的两种不同的方法。第一个方法使用反射来推断一个包含特定对象类型的RDD的模式。
zghgchao
·
2017-12-23 10:37
spark
DataFrame
Spark菜鸟进阶
关于
SparkSQL
/DataFrame(Spark1.4.1版本)
SparkSQL
是Spark生态系统里用于处理结构化大数据的模块,该模块里最重要的概念就是DataFrame,Spark的DataFrame
qin_na
·
2017-12-22 17:31
大数据入门
《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计
《
SparkSQL
大数据实例开发》9.2综合案例实战——电商网站搜索排名统计9.2.1案例概述本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜索词,然后点击搜索按钮,就能在京东网站搜索用户需要的商品
段智华
·
2017-12-16 20:27
Hadoop
SparkSql
读取数据和插入数据
一、
sparksql
读写mysql数据1.读取valurl="jdbc:mysql://主机名:端口号"valtableName="db_name"valproperties=newjava.util.Properties
泪痕残
·
2017-12-11 17:40
sparksql
SparkSQL
的前世今生
SparkSQL
的前世今生标签(空格分隔):spark学习HiveSQL早期都是使用hiveSQL,hiveSQL的执行流程:1.语法解析2.生成逻辑计划3.优化4.生成物理计划通过以上流程将hiveSQL
Addroc_Sue
·
2017-12-09 20:49
Spark知识笔记
spark-sql(四)---读写elasticsearch数据
sparksql
读写elasticsearch
sparksql
将elasticsearch数据转换成RDD进行计算,测试下
sparksql
对elasticsearch的读和写的操作。
敲码的汉子
·
2017-12-07 14:05
spark
elasticsearch
spark2.x学习心得
Spark Streaming消费kafka,不同topic-join实时统计
前言习惯用了
SparkSql
,做实时统计的时候,也想用StructuredStreaming.但发现一个特殊情况目前StructuredStreaming(spark2.1.2)不支持两个topicjoin
小白鸽
·
2017-12-06 15:46
Spark
spark2.1 sql 自定义udf以及spark sql api
sparksql
自定义udfspark定义视图说明:在dataframe的基础上给出视图名称,dataframe可以来源于jdbc查询结果,也可以是jsonvalspark=SparkSession.builder
snail_knight
·
2017-12-06 14:03
Spark技术栈学习
Spark比MapReduce快100倍,拥有Java,Scale,Python等API,且支持多种平台(Hadoop,Cloud,Mesos等),能够在一个应用中支持SparkStream(流计算),
SparkSQL
MrGeroge
·
2017-12-05 19:46
Spark
使用
SparkSQL
读取Hbase表
HBase-SparkConnector(在HBase-Spark模块中)利用了在Spark-1.2.0中引入的DataSourceAPI(SPARK-3247),在简单的HBaseKV存储和复杂的关系型SQL查询之间架起了桥梁,使得用户可以在HBase上使用Spark执行复杂的数据分析工作。HBaseDataframe是一个标准的SparkDataframe,能够与任何其他的数据源进行交互,比如
a_BigData
·
2017-12-05 17:12
[百度地图]Apache Kylin 在百度地图的实践 - Kyligence
2589/我们团队正需要搭建一套完整的大数据OLAP分析计算平台,用来提供百亿行级数据单条SQL毫秒到秒级的多维分析查询服务,在技术选型过程中,我们参考了ApacheDrill、Presto、Impala、
SparkSQL
葡萄喃喃呓语
·
2017-12-05 13:44
Scala与Java在空值上判定的探讨
本文章探讨Scala语言与Java语言在空值上的区别问题产生背景:在编写Spark任务时采用
SparkSQL
向Oracle存数据,对RDD与DateFrame进行了去空值(如下但不限于以下几种)处理后仍然会有
陈孜豪
·
2017-12-04 15:02
Scala
Spark 1.6
**RunningModeStandalonemodeProgrammingGuideRDDDevelopSparkprogramInputandOutput
SparkSQL
,DataFrameandDataSet
SparkSQL
isaSparkmoduleforstructureddataprocessin
abrocod
·
2017-12-04 02:01
Spark SQL将数据写入Mysql表的一些坑
最近,在使用
SparkSQL
分析一些数据,要求将分析之后的结果数据存入到相应的MySQL表中。
chenyulancn
·
2017-11-30 11:41
大数据
上一页
73
74
75
76
77
78
79
80
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他