sparkSQL 第71页

Spark学习（肆）- 从Hive平滑过渡到Spark SQL

的使用spark-shell&spark-sql的使用spark-shellspark-sqlthriftserver&beeline的使用jdbc方式编程访问SQLContext的使用Spark1.x中SparkSQL

-无妄-·2018-12-03 15:52

平台搭建---hadoop生态的用户权限控制问题

在程序中指定Spark和Hadoop的用户SparkSQL利用HDFS的权限控制表的读权限大数据安全：Ranger与Sentry使用区别ApacheRanger：统一授权管理框ApacheRanger剖析

diggerTT·2018-12-01 17:39

SparkSQL操纵Hive（二）：环境部署

为了尝试SparkSQL操纵Hive，首先要进行一些环境上的部署。

weiiL·2018-11-28 15:03

SparkSQL操纵Hive（一）：系统准备

本文记录了SparkSQL操纵Hive的入门过程，包含了Ubuntu系统准备、环境部署和实例运行三个部分。这一部分为Ubuntu系统准备，主要包含了Ubuntu虚拟机的安装和ssh的安装。

weiiL·2018-11-28 15:47

大数据学习路线（完整详细版）

,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,sparksql

大数据01·2018-11-28 12:33

Spark编程基础1Scala

大数据学习路线课程实验实验1-Linux系统的安装和常用命令实验2-Scala编程初级实践实验3-Spark和Hadoop的安装实验4-RDD编程初级实践实验5-SparkSQL编程初级实践实验6-SparkStreaming

A记录学习路线·2018-11-28 09:19

Spark Structed Streaming 入门详解

一、概述StructedStreaming是一个可扩展和容错能力构建与SparkSql引擎上的流处理引擎。你可以像采用批次处理静态数据一样处理流式数据。

~shallot~·2018-11-26 20:33

SparkSQL创建表的几种方式

数据格式：7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30//需要导入的包importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.catalyst.encoders.ExpressionEncoderimportorg.

m0_37723298·2018-11-25 20:46

pyspark dataframe列的合并与拆分

使用SparkSQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。

山木枝·2018-11-25 19:19

Spark简单介绍

spark组件图1spark软件栈SparkSQL：提供了类sql方式操作结构化半结构化数据。SparkStreaming：提供了近乎实时的流式数据处理，与storm相比有更高的

zhanghouse1·2018-11-24 23:22

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

第四天–Accumulator累加器–SparkSQL–DataFrame–HiveonSpark文章目录第四天--Accumulator累加器--SparkSQL--DataFrame--HiveonSpark

Eva.努力学习·2018-11-23 01:38

是时候学习真正的 spark 技术了

 sparksql可以说是spark中的精华部分了，我感觉整体复杂度是sparkstreaming的5倍以上，现在spark官方主推structedstreaming，sparkstreaming维护的也不积极了

七仙女很忙·2018-11-21 16:59

distribute by控制分区文件数

distributeby后面列，对应reduce的个数进行分发，默认是采用hash算法.大部分情况都用于解决Map输出的文件大小不均,Reduce输出文件大小不均,小文件过多,文件超大等情况.背景:1.在很多情况下,使用sparksqlinsertoverwrite

寒陌辰·2018-11-21 11:01

Spark学习笔记——1

一、Spark简介1、Spark：完全基于Hadoop的一种计算框架2、计算框架——》适用场景：SparkRDD——》离线批处理SparkCore——》流式计算SparkSQL——》交互式查询（基于Hive

Mr_Effiya·2018-11-21 10:24

Spark（六）：SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理

Spark（六）：SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理如上转载的这篇文章写得不错！！！一：简单了解SparkSQL。

小坦克007·2018-11-20 23:15

SparkContext任务本地开发与服务器运行

1.本地开发：在IDEA中新建一个maven工程：1）maven基础坐标如下：com.imooc.sparksql1.02）项目名称：ImoocSparkSqlProject3）在pom文件中修改scala

翰文不是瀚·2018-11-20 22:16

SparkSQL把rdd转化为DataFrame时，想要把整个数组的值都放到Row中则么办?

在使用sparkSQL，有时想要把rdd中的数据转换成DataFrame，RDD中的的数据可能时Array类型，或者是想要把数组类型中的所有元素放到Row中，当数组中的元素特别多时，可能就会变得更加麻烦

Lu_Xiao_Yue·2018-11-19 22:45

SparkSql的一些问题记录

1.在sparksql打开时（beeline），查询一张表是有数据的，如果此时该表有清洗任务执行，并重新写入数据，那么会出现如下情况a.在2.0.2版本，如果此时继续查询数据，那么查询结果为没有记录；如果执行

gbsmd·2018-11-19 22:07

SparkSQL访问MySql源

Spark环境spark-2.3.0添加依赖org.apache.sparkspark-sql_2.112.3.0mysqlmysql-connector-java5.1.22创建SparkSession/***SparkSession*支持数据源：textFile,load,csv,json,text,format,jdbc*@return*/publicstaticSparkSessionge

黑暗行动·2018-11-18 23:17

SparkSQL访问Hive源

软件环境hadoop2.7.6spark-2.3.0scala-2.11.12hive-2.1.1SparkSQL命令行模式可以直接连接Hive的将hive目录中的D:\Soft\apache-hive

黑暗行动·2018-11-18 22:26

Spark Sql

目录SharkSparkSqlHiveonSpark模式SparkSQLonHive模式DataFrameDataFrame创建方式读json文件（不能是嵌套格式的json）读取json格式的RDD读取

Hello_Money_WZG·2018-11-18 17:57

Spark SQL

楔子SparkSQL,基于Spark2.版本Spark相关内容以下内容是从相关书籍中，阅读Spark部分笔记企业大数据处理Spark、Druid、Flume、Kafka应用实践2Spark详解Spark

千里草竹·2018-11-18 00:04

Spark SQL系列二

DataSourcesSparkSQL支持通过DataFrame接口操作多种类型的数据源。

scott_alpha·2018-11-16 19:47

Spark OOM

一、背景在跑SparkSQL任务时，突然报OOM错误，测试的时候是可以的。

忘川三途·2018-11-16 10:12

TiDB的存储层（TiKV）做为spark分布式数据源事例

TiSpark深度整合了SparkCatalyst引擎，可以对计算提供精确的控制，使Spark能够高效的读取TiKV中的数据，提供索引支持以实现高速的点查;通过多种计算下推减少SparkSQL需要处理的数据大小

BASEDEDATO·2018-11-14 15:13

Spark源代码阅读（一）

_41705780/article/details/79273666总体架构Spark工程下的模块sparkcore,spark内核sparkstreaming,spark流计算(基于batch方式)sparksqlMLlib

define_us·2018-11-13 11:45

SparkSQL之双重Group解决数据倾斜

本文介绍了如何使用自定义UDF来给key新增随机数前缀，并使用双重Group来解决数据倾斜。主要内容：1.自定义UDF2.数据流程3.Spark程序1.自定义UDFRandomPrefixUDF.java/***给字段添加随机前缀*random_prefix()**@authorAdministrator*/publicclassRandomPrefixUDFimplementsUDF2{priv

阿坤的博客·2018-11-12 16:04

（十三）SparkSQL 运行异常：org/codehaus/janino/InternalCompilerException

SparkSQL中执行了Dataset的action操作出现下面的异常：Exceptioninthread"main"java.lang.NoClassDefFoundError:org/codehaus

白面葫芦娃92·2018-11-12 16:15

【Spark】SparkSql分析结果写入Mysql

这里写一下sparksql怎么应用

java劝退师·2018-11-11 23:37

sparksql通过jdbc读取mysql时划分分区问题

当通过spark读取mysql时，如果数据量比较大，为了加快速度，通常会起多个task并行拉取mysql数据。其中一个api是defjdbc(url:String,table:String,columnName:String,lowerBound:Long,upperBound:Long,numPartitions:Int,connectionProperties:Properties):Data

wisgood·2018-11-10 18:58

SparkSql将数据源Hive中数据导入MySql实例

为啥子这么说呢，那就是不就是个SparkSql从hive导入到mysql吗！有什么技术含量，但是呢不断地踩坑ing填坑ing。废话不多说，直接上硬菜。

demon菇娘_要跳·2018-11-09 09:41

Spark SQL从MySQL中加载数据以及将数据写入到mysql中 Spark Shell方式 Spark SQL程序

1．JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。

这个脑子不好使的·2018-11-07 23:34

Spark SQL

本文翻译自Spark官网（http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes）概览SparkSQL

scott_alpha·2018-11-07 07:10

Spark Streaming（五）：与Spark SQL整合

SparkStreaming最强大的地方在于，可以与SparkCore、SparkSQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream中的RDD使用SparkCore

张凯_9908·2018-11-07 01:36

Spark学习笔记二：Spark.SQL

SparkSQL在SparkCore的基础上对外提供了SQL接口，可以让熟悉SQL的技术人员快速上手。其编程入口为SparkSession。.

DanyYan·2018-11-06 20:11

2 、SparkSQL编程入口SparkSession

1.要编写SparkSQL程序，必须通SparkSession对象pyspark.sql.SparkSession(sparkContext,jsparkSession=None)在spark1.x之前的版本中

风中一叶(Liko)·2018-11-04 18:41

Spark SQL操作多种数据源

SparkSQL的默认数据源格式为parquet格式。数据源为Parquet文件时，SparkSQL可以方便地进行读取，甚至可以直接在Parquet文件上执行查询操作。

大鱼-瓶邪·2018-11-04 17:09

Spark DataFrame的groupBy vs groupByKey

在使用SparkSQL的过程中，经常会用到groupBy这个函数进行一些统计工作。

zzzzMing·2018-11-04 16:00

Spark SQL中RDDs转化为DataFrame（详细全面）

除了调用SparkSesion.read().json/csv/orc/parqutjdbc方法从各种外部结构化数据源创建DataFrame对象外，SparkSQL还支持将已有的RDD转化为DataFrame

大鱼-瓶邪·2018-11-04 12:32

Spark数据倾斜解决方案二：过滤导致数据倾斜的Key

如果是在SparkSQL中使用where字句过滤，如果在SparkCore中，就是用RDD的filter算子来过滤。

hipeer·2018-11-02 18:24

Structured Streaming《入门示例》

概述：StructuredStreaming是一个构建在SparkSQL引擎上，可扩展，容错的的流处理引擎。您可以像编写静态数据的批处理程序一样，编写流处理程序。

Mathieu66·2018-11-02 16:00

Spark知识点总结

Spark在集群中大概运行流程4、提交Application的方式5、搭建及测试集群6、Spark的任务调度7、Spark的资源调度8、Spark的（任务调度+资源调度）整合9、SparkShuffer10、SparkSQL11

身为风帆，要顺其自然·2018-11-02 13:26

SparkSQL（4）：Dataframe和RDD相互转换

1.功能：实现Dataframe和RDD相互转换2.Dataframe转换RDDvaljsonRdd=jsonDataFrame.rdd3.RDD转换Dataframe（1）通过类的反射机制importsqlContext.implicits._valdf=rdd.toDF()（2）明确给定字段名称和schema信息valschema=StructType(Array(StructField("r

RayBreslin·2018-10-31 20:07

Spark源码系列:DataFrame repartition、coalesce 对比

在SparkSQL中，对数据重新分区主要有两个方法repartition和coalesce，下面将对两个方法比较repartitionrepartition有三个重载的函数：defrepartition

lillcol·2018-10-31 19:00

RDD转换成DataFrame的两种方式

一、概述SparkSQL支持两种不同的方式将RDD转换为DataFrame。

jmx_bigdata·2018-10-31 15:15

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践

本次分享主要包括了Sparkshuffle基于Alluxio的优化，以及基于Alluxio对于临时表的性能改进：1.在搜狗大量的数据分析,知识图谱的数据制作使用Spark/SparkSQL来进行并行计算

示说网平台·2018-10-31 11:33

SparkSQL操作Hive Table

SparkSQL支持对Hive的读写操作。然而因为Hive有很多依赖包，所以这些依赖包没有包含在默认的Spark包里面。如果Hive依赖的包能在classpath找到，Spark将会自动加载它们。

hellozhxy·2018-10-31 10:58

spark第九篇：Spark操作ES

2、SparkSQLsupportjava代码示例：publicstaticvoidmain(Str

koushr·2018-10-29 22:00

大数据学习路线（完整详细版）

,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,sparksql

haohsq·2018-10-27 14:21

MongoDB on SparkSql的读取和写入操作(Python版本)

MongoDBonSparkSql的读取和写入操作(Python版本)1.1读取mongodb数据python方式需要使用pyspark或者spark-submit的方式进行提交。

张行之·2018-10-26 22:31

推荐频道

sparkSQL

Spark学习（肆）- 从Hive平滑过渡到Spark SQL

平台搭建---hadoop生态的用户权限控制问题

SparkSQL操纵Hive（二）：环境部署

SparkSQL操纵Hive（一）：系统准备

大数据学习路线（完整详细版）

Spark编程基础1Scala

Spark Structed Streaming 入门详解

SparkSQL创建表的几种方式

pyspark dataframe列的合并与拆分

Spark简单介绍

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

是时候学习真正的 spark 技术了

distribute by控制分区文件数

Spark学习笔记——1

Spark（六）：SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理

SparkContext任务本地开发与服务器运行

SparkSQL把rdd转化为DataFrame时，想要把整个数组的值都放到Row中则么办?

SparkSql的一些问题记录

SparkSQL访问MySql源

SparkSQL访问Hive源

Spark Sql

Spark SQL

Spark SQL系列二

Spark OOM

TiDB的存储层（TiKV）做为spark分布式数据源事例

Spark源代码阅读（一）

SparkSQL之双重Group解决数据倾斜

（十三）SparkSQL 运行异常：org/codehaus/janino/InternalCompilerException

【Spark】SparkSql分析结果写入Mysql

sparksql通过jdbc读取mysql时划分分区问题

SparkSql将数据源Hive中数据导入MySql实例

Spark SQL从MySQL中加载数据以及将数据写入到mysql中 Spark Shell方式 Spark SQL程序

Spark SQL

Spark Streaming（五）：与Spark SQL整合

Spark学习笔记二：Spark.SQL

2 、SparkSQL编程入口SparkSession

Spark SQL操作多种数据源

Spark DataFrame的groupBy vs groupByKey

Spark SQL中RDDs转化为DataFrame（详细全面）

Spark数据倾斜解决方案二：过滤导致数据倾斜的Key

Structured Streaming《入门示例》

Spark知识点总结

SparkSQL（4）：Dataframe和RDD相互转换

Spark源码系列:DataFrame repartition、coalesce 对比

RDD转换成DataFrame的两种方式

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践

SparkSQL操作Hive Table

spark第九篇：Spark操作ES

大数据学习路线（完整详细版）

MongoDB on SparkSql的读取和写入操作(Python版本)