SPARK-SQL 第5页

spark-sql on yarn 、spark-shell on yarn 详解

有时候在做开发测试的时候，需要使用spark-shell和spark-sql命令行，除了Local和Sparkstandalone模式，spark-shell和spark-sql也可以运行在yarn上，

wang2leee·2020-09-14 01:16

Spark-Sql启动报错：Error creating transactional connection factory

/bin/spark-sql报错Errorcreatingtr

午后的红茶meton·2020-09-13 20:09

实现CDH支持Spark SQL功能

CDH内嵌spark版本不支持spark-sql,可能是因为cloudera在推自己的impala；如果上线spark却不能使用sql这种结构化语言，对于大部分分析人员其实是很不爽的！

sunyang098·2020-09-13 18:22

spark：报错com.esotericsoftware.kryo.KryoException: Buffer underflow.

场景spark-sql跑一个较大的任务（几亿条数据），数据落盘时报错：com.esotericsoftware.kryo.KryoException:Bufferunderflow.探索查看抛出这个报错的源码

x950913·2020-09-13 10:41

spark-sql子查询的字段名在父查询中无法解析

场景：多表join、union时，发生如下报错：Errorinquery:Resolvedattribute(s)complex_flag_code#6549,quantity#6551L,pay_time_date#6547,sales_price#6553,oms_code#6548,retail_price#6550,promotion_sku_code#6552missingfromret

x950913·2020-09-13 10:11

大数据：缓慢变化维

因为HDFS的不可修改数据的特性，hive和spark-sql不能像传统数据库一样使用update修改数据的。通常对于变化

x950913·2020-09-13 10:11

spark-sql读取不到parquet格式的hive表

当向Hivemetastore中读写Parquet表时，SparkSQL将使用SparkSQL自带的ParquetSerDe（SerDe：Serialize/Deserilize的简称,目的是用于序列化和反序列化），而不是用Hive的SerDe，SparkSQL自带的SerDe拥有更好的性能。这个优化的配置参数为spark.sql.hive.convertMetastoreParquet，默认值为

x950913·2020-09-13 10:10

spark-SQL综合练习每日关键字的UV统计-scala

spark-SQL综合练习每日关键字的UV统计-scala1.开发环境说明2.运行环境说明3.实现的需求如下4.实现代码如下5.分步输出的结果如下6.。。。。。。

xuanwenchao·2020-09-11 11:26

spark-sql 关联问题

spark-sql使用不等关联不出数据，的解决办法2017-10-20计划spark-sql取出join后另外一个字段匹配不上的记录select*fromap1ajoinap2bona.id=b.idanda.name

per_time·2020-09-11 06:05

Spark SQL 操作 Hive 表数据

方式操作Hiveshowtablesselect*fromempjoin操作总结：和HQL语法一毛一样，只是记得使用如下格式spark.sql("xxxxxx").show即可如果嫌麻烦，还可以直接使用spark-sql

路飞DD·2020-09-11 05:47

hive使用spark引擎的几种情况

使用spark引擎查询hive有以下几种方式：1>使用spark-sql(sparksqlcli)2>使用spark-thrift提交查询sql3>使用hiveonspark(即hive本身设置执行引擎为

weixin_30275415·2020-09-11 04:26

在Zeppelin上运行Spark程序

前言不得不说，Spark在Zeppelin上的使用还是比较方便的，比你在终端启动一个spark-shell或者spark-sql强太多了。闲话少说，我们一起来看一看吧！

AaronLwx·2020-09-10 21:25

Spark SQL快速入门系列之Hive

.hive和sparksql的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2+beeline三.脚本使用spark-sql

大数据技术与架构·2020-09-10 18:26

Spark-sql 读hbase

SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下，清单如下：在ambari上配置Spark节点的$SPARK_HOME/conf/spark-env.sh,将上面的jar包添加到SPARK_CLASSPATH，如下

chenla5762·2020-08-24 13:28

Spark-SQL之自定义数据源的构建

自定义数据源的构建常见的trait下面是interfaces.scala中常见的一些接口：下面各种类、方法，在源码里面都有详细的注释。//BaseRelation是Spark提供的一个标准的接口//由于是抽象类，如果要实现自己的外部数据源，必须要实现它里面的一些方法//这个里面是含有schema的元组集合（字段:字段类型）//继承了BaseRelation的类，必须以StructType这个形式产

Try Everything、·2020-08-24 12:59

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-23 00:25

sparkSQL1.1入门之七：ThriftServer和CLI

1：令人惊讶的CLI刚部署好spark1.1就迫不及待地先测试CLI（bin/spark-sql），对于习

mmicky20110730·2020-08-22 21:06

Spark SQL/Hive 同一列的多行记录合并为一行

（第一列用户id，第二列商店id，第三列地区id，第四列日期）spark-sql>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776

光于前裕于后·2020-08-22 20:14

Spark-sql结果保存指定位置

//1.读取数据，将每一行的数据使用列分隔符分割vallineRDD=sc.textFile("hdfs://node1.itcast.cn:9000/person.txt",1).map(_.split(""))//2.定义caseclass（相当于表的schema）caseclassPerson(id:Int,name:String,age:Int)//3.导入隐式转换,在当前版本中可以不用导

绛门人·2020-08-22 19:42

【运行spark-sql报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法

scala版本对不上所以着重对这方面的检查.直到我看到pom.xml文件得配置.....大概就知道是什么原因了org.apache.sparkspark-sql_2.112.3.0显然我Maven里面配置的spark-sql

佩奇配骑·2020-08-22 19:00

spark1.4版本与CDH5.1.3版本hive整合

场景介绍：在spark-sql中，读取hive的数据配置步骤如下：1、找到hive的hive-site.xml文件和hive-log4j.properties文件放入spark的conf目录下。

重拾梦想·2020-08-22 17:16

sparkstreaming的参数解读

1：spark.default.parallelism设置sparkstreaming程序的并行度:2：spark.sql.shuffle.partitions设置spark-sql程序的并行度3：spark.scheduler.listenerbus.eventqueue.size

csy_666·2020-08-22 16:33

sparksql两种方式的执行效率

方式一：/**使用spark-sql实现的*/defrhVisitor(ss:SparkSession,dt:String,per_hour:String,merchant:String):Unit={

ZH519080·2020-08-22 16:54

解决spark driver端cpu使用率超过3000%问题

我们一部分批处理任务用的是spark-sql，默认只有yarnclient模式，使用yarnclient模式时driver端会成为瓶颈，有时候晚上跑批的时候大量etl任务同时跑，cpu负载过高导致机器告警

L13763338360·2020-08-22 16:23

spark-sql：自定义UDF函数进行敏感字段加密解密

需求一些用户数据中包含诸如用户手机号等信息，直接暴露出来的话，是违法的。。。需要对数据进行脱敏，如果单纯的将手机号替换为***号，那么就意味着丢失用户的手机号数据了，因为无法再将***变回手机号。所以需要自定义UDF函数，实现敏感数据的加密解密。这里实现了两个UDF函数，一个用于加密，一个用于解密。使用Java自带的crypto模块实现AES加密。在代码中将两个UDF函数中的SecureRando

x950913·2020-08-22 15:39

2018-11-28

针对spark-sql操作hive生成分区表，结果文件目录包含_success空文件，可以设置参数：mapreduce.fileoutputcommitter.marksuccessfuljobs因此可以在程序中设置

宇智波_佐助·2020-08-21 16:42

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-21 15:41

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-21 14:21

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-21 12:11

spark错误记录：Container on host: was preempted（没有彻底解决，只是理解这个问题）

（作者：陈玓玏data-master)spark-sql任务跑着跑着，碰到一个bug：Containeronhost:waspreempted又是一个新鲜的bug呢！！

小白白白又白cdllp·2020-08-20 19:11

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-20 17:20

spark-sql使用

spark-sqlspark-sql在cli端的操作使用spark-sql编程需要配置jar包通过反射推断schema通过structtype指定schema通过spark-shell从mysql中加载数据将数据保存到

metooman·2020-08-20 17:15

Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDB

SunnyMore·2020-08-20 14:35

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-08-19 21:28

streamsets自定义插件部署方案

2.部署步骤2.1cm界面操作2.2上传驱动包2.3上传插件2.4选择pipeline2.5pipeline配置3.启动界面1.背景简介由于sdc缺少由kudu到mysql的upsert操作，前期通过spark-sql

tianjun2012·2020-08-18 22:54

同一个sql 在Hive和spark-sql 跑出结果不一样记录

表Schemahive>descgdm.dim_category;namestring分类名称org_codestring分类codehive>selectname,org_codefromgdm.dim_categorylimit2;OK鞋_8_鞋/男_8_21_hive>descgdm.dim_product_brand;brand_idbigint品牌IDch_namestring品牌中文名

阿武z·2020-08-18 12:25

大数据开发之Spark篇----idea上使用SparkSQL对Hive上的数据

SparkSQL连接到Hive上将hive-site.xml存储到项目上的resources目录上既然我们要在idea上使用spark来访问Hive上的数据，那我们也要有元数据地址才行嘛，所以这和使用spark-sql

豆豆总·2020-08-18 12:55

HDP3.1中spark2.3无法读取Hive3.0数据

通过Ambari2.7安装好HDP3.1后，发现在spark-sql中无法读到hive命令行创建的数据库和表。

MiniCoder丨·2020-08-18 12:45

Spark-SQL应用解析

文章目录一、概述DataFrameDataSet二、数据转换1.RDDDataFrameRDD->DataFrameDataFrame->RDD2.RDDDataSetRDD->DataSetDataSet->RDD3.DataFrameDataSetDataFrame->DataSetDataSet->DataFrame三、SparkSQL简单操作四、SQL的执行模式DSL模式SQL模式五、自定

2NaCl·2020-08-18 11:05

Spark-SQL在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF

POMorg.apache.sparkspark-core_2.112.1.1org.apache.sparkspark-sql_2.112.1.1SparkCoreTestnet.alchim31.mavenscala-maven-plugin3.3.2compiletestCompileDF风格编程代码实现//1.创建SparkSession对象valspark:SparkSession=Sp

SmallScorpion·2020-08-18 11:55

spark-sql 2.3.1版本的，集群上的hive连接不上，求解

Exceptioninthread"main"java.lang.ClassNotFoundException:java.lang.NoClassDefFoundError:org/apache/hadoop/fs/CanUnbufferwhencreatingHiveclientusingclasspath:file:/E:/development/Java/jre/lib/charsets.j

qq_36687028·2020-08-18 11:08

2.2、配置Spark-sql(连接Hive)

一、复制Hadoop目录下的hdfs-site.xml和Hive目录下的hive-site.xml到/usr/spark/spark-2.1.0/conf目录下二、cpspark-env.sh.templatespark-env.sh，编辑spark-env.sh文件添加如下内容：exportJAVA_HOME=/usr/java/jdk1.8.0_102exportCLASSPATH=CLASS

恶魔的步伐·2020-08-18 11:55

Spark-Sql版本升级对应的新特性汇总

Spark-Sql版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善，2014年6月1日ReynoldXin宣布：停止对Shark的开发。

kwu_ganymede·2020-08-18 11:24

Spark 电商分析 Spark-sql 统计各区域热门商品统计需求、设计、数据库

一、需求分析1、根据用户指定的日期范围，统计各个区域下的最热门的top3商品区域信在哪里？各个城市信息不怎么变化，存储在mysql中hive用户行为数据，hive和mysql城市信息join（Hive和mysql异构数据源使用，技术点1）关联之后是RDD，RDD转换成DataFrame，注册临时表，第二个技术点各个区域下各个商品的点击量，保留每个区域的城市列表数据？自定义UDAF函数，group_

chixushuchu·2020-08-18 11:00

Spark-streaming 和spark-sql 基本概念

Spark-streaming和spark-sql基本概念spark-streaming是spark体系中一个流式处理的框架spark-core是核心的计算引擎，streaming是其中一个功能streaming

000000_cy·2020-08-18 10:28

Spark通过Dataframe操作hive

1.1、创建一个SQLContext,SQLContext（及其子类，如本节的HiveContext）是SparkSQL所有功能的入口SqlContext:应该是对应spark-sql这个project

chbxw·2020-08-18 10:39

SPARK-SQL - DataFrame创建方式汇总

创建DataFrame的方式从JavaRDD与类类型中创建从List与类类型中创建从JavaRDD与schema中创建从List与schema中创建从外部数据源中创建如spark.read().json等importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg

小哇666·2020-08-18 10:37

Spark问题记录

问题1问题描述项目中使用CDH5.8,在测试环境上使用spark-sql将数据写到Mysql时，一直报错如下java.lang.ClassNotFoundException:com.mysql.jdbc.Driver

灰灰鲁伊·2020-08-16 07:07

Mac单机Hadoop2.7下安装Spark2.2+配置SparkSQL查询Hive表+spark-sql CLI 查询

下面简单记录mac单机spark安装测试的过程已安装好单机的伪分布式Hadoop，见Mac单机Hadoop安装备忘已安装好单机的hive，见Mac-单机Hive安装与测试单机Mac安装spark并做简单yarn模式shell测试配置SparkSQL查询Hivespark-sqlCLI查询Hive一、安装Spark1-下载安装scalahttps://www.scala-lang.org/downl

hjw199089·2020-08-11 21:11

SPARK-SQL 基础应用入门1-sparkSession，Dataset，DataFrame，select，groupBy等

小哇666·2020-08-11 05:56

推荐频道

SPARK-SQL

spark-sql on yarn 、spark-shell on yarn 详解

Spark-Sql启动报错：Error creating transactional connection factory

实现CDH支持Spark SQL功能

spark：报错com.esotericsoftware.kryo.KryoException: Buffer underflow.

spark-sql子查询的字段名在父查询中无法解析

大数据：缓慢变化维

spark-sql读取不到parquet格式的hive表

spark-SQL综合练习每日关键字的UV统计-scala

spark-sql 关联问题

Spark SQL 操作 Hive 表数据

hive使用spark引擎的几种情况

在Zeppelin上运行Spark程序

Spark SQL快速入门系列之Hive

Spark-sql 读hbase

Spark-SQL之自定义数据源的构建

Spark - SQL查询文件数据

sparkSQL1.1入门之七：ThriftServer和CLI

Spark SQL/Hive 同一列的多行记录合并为一行

Spark-sql结果保存指定位置

【运行spark-sql报错】:java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 解决办法

spark1.4版本与CDH5.1.3版本hive整合

sparkstreaming的参数解读

sparksql两种方式的执行效率

解决spark driver端cpu使用率超过3000%问题

spark-sql：自定义UDF函数进行敏感字段加密解密

2018-11-28

Spark - SQL查询文件数据

Spark - SQL查询文件数据

Spark - SQL查询文件数据

spark错误记录：Container on host: was preempted（没有彻底解决，只是理解这个问题）

Spark - SQL查询文件数据

spark-sql使用

Spark-SQL之DataFrame操作大全

Spark - SQL查询文件数据

streamsets自定义插件部署方案

同一个sql 在Hive和spark-sql 跑出结果不一样记录

大数据开发之Spark篇----idea上使用SparkSQL对Hive上的数据

HDP3.1中spark2.3无法读取Hive3.0数据

Spark-SQL应用解析

Spark-SQL在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF

spark-sql 2.3.1版本的，集群上的hive连接不上，求解

2.2、配置Spark-sql(连接Hive)

Spark-Sql版本升级对应的新特性汇总

Spark 电商分析 Spark-sql 统计各区域热门商品统计 需求、设计、数据库

Spark-streaming 和spark-sql 基本概念

Spark通过Dataframe操作hive

SPARK-SQL - DataFrame创建方式汇总

Spark问题记录

Mac单机Hadoop2.7下安装Spark2.2+配置SparkSQL查询Hive表+spark-sql CLI 查询

SPARK-SQL 基础应用入门1-sparkSession，Dataset，DataFrame，select，groupBy等

Spark 电商分析 Spark-sql 统计各区域热门商品统计需求、设计、数据库