---SparkSQL 第47页

实现自定义Spark优化规则

Catalystoptimizer实战编写一个优化规则编写优化规则注册优化规则测试结果添加钩子和扩展点功能编写自定义优化规则和扩展点配置并启用自定义Spark扩展测试优化规则参考文档CatalystoptimizerSparkSQL

wankunde·2020-07-28 15:58

Spark学习（1）——初识spark

Spark包含了大数据领域常见的各种计算框架；比如SparkCore勇于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX

Mbappe·2020-07-28 15:25

Spark SQL集合数据类型array\map的取值方式

海角Q·2020-07-28 15:53

SparkSQL使用之如何使用UDF

使用Java开发一个helloworld级别UDF，打包成udf.jar，存放在/home/Hadoop/lib下，代码如下：packagecom.luogankun.udf;importorg.apache.hadoop.hive.ql.exec.UDF;publicclassHelloUDFextendsUDF{publicStringevaluate(Stringstr){try{retur

快乐与忧郁的码农·2020-07-28 15:33

Spark-ThriftServer源码分析

Spark1.1之后的版本引入了ThriftServer和CLI，使得Hive用户和RDBMS用户可以直接通过JDBC方式提交SQL至Spark运行而无需编写sparksql代码，下面对spark-thriftserver

RacingHeart·2020-07-28 14:30

SparkSQL DataFrame与MySQL增删改查那些事儿

在使用Spark中通过各种算子计算完后各种指标后，一般都需要将计算好的结果数据存放到关系型数据库，比如MySQL和PostgreSQL等，随后配置到展示平台进行展现，花花绿绿的图表就生成了。下面我讲解一下，在Spark中如何通过c3p0连接池的方式对MySQL进行增加改查（CRUD），增加（Create），读取查询（Retrieve），更新（Update）和删除（Delete）。项目github地

腾飞的大象·2020-07-28 13:17

spark sql 内置配置（V2.2）

最近整理了一下sparkSQL内置配。加粗配置项是对sparkSQL调优性能影响比较大的项，小伙伴们按需酌情配置。后续会挑出一些通用调优配置，共大家参考。有不正确的地方，欢迎大家在留言区留言讨论。

sunkl_·2020-07-28 13:24

SparkSQL（3）：开启ThriftServer服务

一、实现功能SparkSQL的ThriftServer服务其实就是Hive的hiveServer2服务，只是将底层的执行改成spark，同时在spark上启动。

RayBreslin·2020-07-28 13:39

Spark概述、Spark特点

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStream

to.to·2020-07-28 12:09

TaskSetManager: Lost task 0.0 in stage 9.0 (TID 18, localhost, executor driver): java.lang.NoSuchMet

环境window10，idea，scala-2.11，spark-2.2.0问题：本地运行sparksql代码报错//5.从外部数据源获取数据valfileDogDF=spark.read.json(s"data

struggling_rong·2020-07-28 11:33

spark sql 无法访问 hive metastore问题解决

SparkSQLonHive是Shark的一个分支，是HIVE执行分析引擎的一个重要利器。

sparkexpert·2020-07-28 11:10

Spark DataFrame列的合并与拆分

SparkDataFrame列的合并与拆分版本说明：Spark-2.3.0使用SparkSQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。

sinat_36121406·2020-07-28 11:13

Spark DataFrame列的合并和拆分

SparkDataFrame列的合并与拆分版本说明：Spark-2.3.0使用SparkSQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。

shirukai·2020-07-28 11:34

pySpark 关于SparkContext和SQLContext等模块

1.pyspark.sql模块是SparkSQLandDataFrames重要的类。

rosefunR·2020-07-28 10:23

SparkSQL利用HDFS的权限控制表的读权限

Spark内置的thrift-server（连接hive）的对权限管理支持得并不是很好，只支持了create/drop权限的控制，但是任意用户都可以读任意库/表，委实是一个问题。为了解决这个问题，可以用HDFS的文件权限控制来对表的读权限进行控制。1.新建用户由于Hive,HDFS都是用系统用户来做权限控制的，所以需要新建一个系统用户。比如新建一个mytest用户，如下图所示：2.给hive表默认

rongyongfeikai2·2020-07-28 10:21

sparksql调优之第一弹

1，jvm调优这个是扯不断，理还乱。建议能加内存就加内存，没事调啥JVM，你都不了解JVM和你的任务数据。spark调优系列之内存和GC调优2，内存调优缓存表spark2.+采用：spark.catalog.cacheTable("tableName")缓存表，spark.catalog.uncacheTable("tableName")解除缓存。spark1.+采用：采用sqlContext.c

大数据星球-浪尖·2020-07-28 10:37

spark sql 任务失败------Container killed on request. Exit code is 137

问题sparksql执行多表join,executor退出，报错Containerkilledonrequest.Exitcodeis137。

道友，且慢·2020-07-28 10:20

thriftserver与spark application的区别

一.ThriftServer介绍ThriftServer是一个JDBC/ODBC接口，用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。

亮大兵·2020-07-28 09:16

SparkSession的三种创建方式

/***创建SparkSession方式1*/valsparkSession1=SparkSession.builder().appName("SparkSQLDemo").master("local"

少心·2020-07-28 08:49

SparkSQL DataFrame进阶篇

SparkSQLDataFrame基础篇SparkSQLDataFrame进阶篇1.创建SparkSession【2.0】和SQLContext实例【1.x】1.创建SparkSession【2.0】/

ihoge·2020-07-28 08:48

SparkSQL核心笔记（一）----（DataSet 和 DataFrame 剖析、DataFrameWriter 与 DataFrameReader 访问 Hive、mySQL，缺失值处理）

目录一、SparkSQL是什么1.1.SparkSQL的出现契机数据分析的方式1.2.SparkSQL的适用场景二、SparkSQL初体验2.1.RDD版本的WordCount2.2.命令式API的入门案例

开着拖拉机回家·2020-07-28 07:31

sparksql 常用内置函数

聚合函数:approxCountDistinct,avg,count,countDistinct,first,last,max,mean,min,sum,sumDistinct集合函数:array_contains,explode,size,sort_array日期时间转换unix_timestamp,from_unixtime,to_date,quarter,day,dayofyear,week

酱g·2020-07-28 06:11

Spark Sql用户权限异常记录

使用SparkSql存Hive数据报错如下19/09/1114:53:10ERRORmetadata.Hive:MetaException(message:UserappuserdoesnothaveprivilegesforALTERTABLE_ADDPARTS

lishengping_max·2020-07-28 05:35

SparkSQL集成sentry权限认证

0、SparkSQL要集成sentry权限认证要解决下面几个问题：1、从hive认证hook中找到sentry认证方法，并将认证代码提取出来2、从sparksql的逻辑计划中提取sentry认证方法所需的参数

星星木有夜·2020-07-28 05:30

Apache Zeppelin简介

ipythonnotebook，可以直接在浏览器中写代码、笔记并共享)多用途笔记本可实现你所需要的：-数据采集-数据发现-数据分析-数据可视化和协作支持多种语言，默认是scala(背后是sparkshell)，SparkSQL

sanfendi·2020-07-28 04:20

Spark SQL函数

SparkSQL函数一、概述1、来源：本文总结自spark2.3.1API文档org.apache.spark.sql：objectfunctions；2、使用：org.apache.spark.sql.functions

简之·2020-07-28 04:55

spark查orc格式hive数据报错NullPointerException

sparkSQL读取hive表数据时候报如下错误我的语句很简单如下：valdf:DataFrame=sqlContext.sql("selectvipId,brandId,dtfrompro60050.

逃跑的沙丁鱼·2020-07-28 03:26

【Spark SQL】两个DataFrame full join之后字段选择问题解决

最近工作上用到SparkSQL来处理数据。但是期间遇到两个表fulljoin的问题，网上比较少关于sparkSQLfulljoin的资料，后面Google了一番找到了问题的核心。

geekingLi·2020-07-28 03:22

Spark学习笔记：Spark进阶

目录Spark进阶一.在Sparkshell中使用不同的数据源1.通用Load/Save函数2.掌握Parquet文件3.SparkSQLJDBC4.HiveOnSpark二.SparkSQL开发三.SparkSQL

SetsunaMeow·2020-07-28 02:29

一.SparkSQL中thriftserver和beeline的使用

使用的前提是你已经安装好了spark,在这里我使用的版本是spark-2.0.2-bin-hadoop2.7,建议使用该版本,因为试了几个版本都不理想,最后找到了这个版本感觉挺好的,学习SparkSQL

飞翔的小宇宙·2020-07-28 02:20

这么简单的SQL怎么也会数据倾斜

秦奋一边写着SparkSQL的任务，心里边一边嘀咕着“组长为什么总是交给我一些这么简单的工作，我希望做一些更有挑战的工作”……在日常的工作中，作为下属，我们有时候会接到leader安排的工作，我们都希望那些工作富有挑战

bugcoder321·2020-07-28 01:49

SparkSession的初始化

本篇博客主要是sparksql从初始开发注意的一些基本点以及力所能及的可优化部分的介绍：所使用spark版本：2.0.0scala版本：2.11.81.SparkSession的初始化：1valsparkSession

li123128·2020-07-28 01:14

spark学习笔记4

SparkSQL,DataFramesandDatasetsGuideOverviewSQLDatasetsandDataFramesGettingStartedStartingPoint:SparkSessionCreatingDataFramesUntypedDatasetOperations

keny风清扬·2020-07-28 01:32

spark-shell 数据文件读成表的两种方式！！！相对路径！！hdfs dfs -ls

parkSQL应用SparkShell启动后，就可以用SparkSQLAPI执行数据分析查询。在第一个示例中，我们将从文本文件中加载用户数据并从数据集中创建一个DataFrame对象。

hzdxw·2020-07-27 23:04

学习 sparksql 遇到的异常问题

问题描述：启动spark和zookeeper，在客户端以spark-shell--masterlocal[2]方式启动1.vallineRDD=sc.textFile("/person.txt").map(_.split(""))读取hdfs上的文件将RDD转换成DataFrame执行rdd.toDF方法报错执行lineRDD.collect方法仍然报错才发现hadoop集群没启动，然后启动had

yala说·2020-07-27 21:20

spark与hadoop的关联和区别，以及spark为什么那么快

SparkSQL比HadoopHive快，是有一定条件的，而且不是SparkSQL的引擎比Hive的引擎快，相反，Hive的HQL引擎还比SparkSQL的引擎更快。

小爷欣欣·2020-07-27 20:16

spark2.4.3 sparkSQL 用户自定义函数笔记

1、简介从Spark2.0以上的版本开始，spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext来实现对数据的加载、转换、处理等工作，并且实现了SQLcontext和HiveContext的所有功能。我们在新版本中并不需要之前那么繁琐的创建很多对象，只需要创建一个SparkSession对象即可。SparkSession支持从不同的数

cqi024442·2020-07-27 20:21

修改Antlr4解析SparkSQL的SqlBase.g4报错

/**LicensedundertheApacheLicense,Version2.0(the"License");*youmaynotusethisfileexceptincompliancewiththeLicense.*YoumayobtainacopyoftheLicenseat**http://www.apache.org/licenses/LICENSE-2.0**Unlessrequ

ciqingloveless·2020-07-27 20:26

Spark2.x学习笔记：14、Spark SQL程序设计

Spark2.x学习笔记：14、SparkSQL程序设计14.1RDD的局限性RDD仅表示数据集，RDD没有元数据，也就是说没有字段语义定义。RDD需要用户自己优化程序，对程序员要求较高。

程裕强·2020-07-27 20:12

spark中dataframe，dataset，sparksql中的各种用法

packageorg.apache.spark.examplesimportDsFilter.Studentimportorg.apache.spark.{HashPartitioner,Partitioner}importorg.apache.spark.broadcast.Broadcastimportorg.apache.spark.rdd.RDDimportorg.apache.spark

cclovezbf·2020-07-27 20:09

由 cannot resolve ‘`a.stuID`‘ given input columns: [a.stuID, a.zhuanID, b.stuID, b.zhuanID]错误引发的思考

利用sparksql对两张表进行join，报错：检查表中字段：发现两张表内都存在stuID。折腾了好久也没弄好，后来不甘心，将数据转为txt格式，没想到同样的代码***跑通了***。

楓尘林间·2020-07-27 19:25

sparksql 操作hive

的版本是1.6.xhttp://spark.apache.org/docs/1.6.1/sql-programming-guide.html#hive-tables查看hive和spark版本对应情况SparkSQL

afei2530·2020-07-27 18:12

Spark进阶（二）

SparkMLlibSparkSQL1.MapReduce计算过程大量的磁盘落地消耗了大量的io，降低运行效率。此时shark应运而生，同期的还有Impala和Drill。

a_victory·2020-07-27 18:23

PySpark---SparkSQL中的DataFrame(四)

1.replace(to_replace,value=_NoValue,subset=None)"""Returnsanew:class:`DataFrame`replacingavaluewithanothervalue.:func:`DataFrame.replace`and:func:`DataFrameNaFunctions.replace`arealiasesofeachother.Va

XiaodunLP·2020-07-27 17:50

[2.6]Spark SQL 操作各种数据源笔记

参考spark官网DT大数据梦工厂sparksql操作各种数据源的数据流转:各种数据源的输入=>RDD(lines)=>RDD(Rows)=>DataFrame(注册临时表)=>分析与过滤（各种sql操作

彭宇成·2020-07-27 16:35

Spark SQL DataFrame新增一列的四种方法

SparkSQLDataFrame新增一列的四种方法方法一：利用createDataFrame方法，新增列的过程包含在构建rdd和schema中方法二：利用withColumn方法，新增列的过程包含在udf

爱是与世界平行·2020-07-27 14:38

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

供稿|eBayADI-CarmelTeam作者|金澜涛编辑|顾欣怡本文7309字，预计阅读时间22分钟导读本文介绍eBayCarmel团队利用DeltaLake，使SparkSQL支持Teradata的

weixin_45906054·2020-07-27 14:51

sparksql集成sentry遇到的问题

sparksql本身并不提供安全认证机制，当前集群的安全认证主要包括sentry和ranger两大块，在通过sparksql执行建表时，sentry的权限报错'org.apache.hadoop.hive.metastore.api.MetaException

RacingHeart·2020-07-27 13:55

[Spark进阶]-- Spark Dataframe操作

参考：https://github.com/rklick-solutions/spark-tutorial/wiki/Spark-SQL#introductionSkiptocoSparkSQLisacomponentontopofSparkCorethatintroducesanewdataabstractioncalledSchemaRDD

highfei2011·2020-07-27 12:43

解决sparksql两个DataFrame合并后出现两列相同的情况

楓尘林间·2020-07-27 11:36

推荐频道

---SparkSQL