Spark-SQL 第8页

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki5·2020-04-06 21:15

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-04-06 10:35

使用spark-sql报错 “Metastore contains multiple versions”

1、背景：进入spark集群，cd/spark,执bin/spark-sql,报错image.png2、解决方法2.1、是hive元数据的问题，进入spark/conf/hive-site.xml，找到

wendy0101·2020-04-02 15:03

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki4·2020-03-31 04:54

Spark on Hive-derby数据库-thriftserver-多客户端使用

--sparkonhive：是spark通过spark-sql使用hive语句操作hive，底层运行的还是sparkrdd。

铁虫_bcde·2020-03-26 10:05

spark-streaming中使用spark-sql做关联查询

实现：首先基于topic，创建出kafka的DStream流valsparkConf=newSparkConf().setAppName(appParams.appName)valsc=newSparkContext(sparkConf)valstreamingContext=newStreamingContext(sc,Seconds(appParams.batchProcInterval))v

lsnl8480·2020-03-24 04:19

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-03-23 14:33

Hadoop、hive、spark、spark-sql基本操作

本教程适用于已经安装好hadoop，spark集群，需要利用的集群做简单的sql数据分析的用户。终端显示快捷ctrl+alt+t#启动hadoop后，查看Hadoop的网站http://localhost:50070/dfshealth.html#查看磁盘容量df-l#截图软件安装sudoapt-getinstallshutter1#任务管理器gnome-system-monitorimage.p

至极L·2020-03-19 03:43

Spark-SQL之DataFrame基本操作

这篇文章将带大家一起学习Spark中DataFrame的基本操作。1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample").enableHiveSupport()//.config("spark.some.config.optio

文哥的学习日记·2020-03-14 21:00

Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data

最近遇到这样一个业务场景：业务数据存储于Hbase中，并在Hive表中建立了HBASE映射表，已实现在Hive及Impala中可查，现想通过Spark-SQL进行查询，其中Spark集群基于Yarn。

步闲·2020-03-08 04:49

spark word count环境搭建（scala）

build.sbtname:="ScalaHelloWorld"version:="1.0"scalaVersion:="2.12.2"libraryDependencies+="org.apache.spark"%%"spark-sql

null0007·2020-03-07 08:51

8.Spark SQL

弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming原文链接：http://blogxinxiucan.sh1.newtouch.com/2017/07/23/Spark-SQL

全能程序猿·2020-03-03 11:42

spark-sql 是 cbo 的吗？

spark-sql的优化器是cost-based的吗？这是一个很有意思的问题。

liprails·2020-02-26 09:20

MySQL+关联（上）

飞谷云MySQL第3讲MySQL+表连接课程概要：回顾第二讲表关联文件关联把数据导入Spark-SQL(DataFrame)一、回顾第二讲1、数据库基本内容表列主键索引行2、数据导入（出）mysqlsql

LuCh1Monster·2020-02-23 12:05

Oozie Kerberos环境下提交Spark-Sql任务

spark-sqlOozie暂时没有像hiveAction那样调用HiveCli实现类似的原生Action，sparkAction实现的是基于spark-submit提交自定义的Jar包，实现Spark-Sql

拔刺的少年·2020-02-22 09:26

Hive优化的十大原则

Hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

liuzx32·2020-02-11 13:17

【ElasticSearch】使用Spark-SQL进行ElasticSearch数据探查

目前针对SQLonElasticSearch已经有了比较好的解决方案：elasticsearch-sql，其实Spark-SQL也可以满足一些基本的ES数据探查的需求，实现起来也相对简单。

PowerMe·2020-02-08 09:35

Hive优化的十大方法

Hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。

王知无·2020-02-06 06:26

spark-sql

spark-sql伪分布式的的安装：在安装之前先确保Hadoop能够运行，有hive，有mysql-connect-Java-jar这个包。

数据时代的下的程序猿·2020-02-06 00:42

寒假第九天

交互式编程更加了解和RDD以及对于编写独立应用程序sbt的打包编程去重也有了了解之前安装完sbt后对于后面的打包需要下载一些文件一直失败，后来我把在网上查询解决方案，找了很久终于教程里spark-core换成了spark-sql

张利杰j·2020-02-03 12:00

spark-sql简单使用

最近迷上了spark，写一些博客，记录一下自己的所得。先学一下sparkdocument上的样例。代码：valsqlContext=neworg.apache.spark.sql.SQLContext(sc)caseclassPerson(name:String,age:Long)valpeople=sc.textFile("examples/src/main/resources/people.t

lsnl8480·2020-02-01 23:41

Spark-SQL 面试准备 2

SparkKnowledgeNO.211.RDD缓存：Spark可以使用persist和cache方法将任意RDD缓存到内存、磁盘文件系统中。缓存是容错的，如果一个RDD分片丢失，可以通过构建它的transformation自动重构。被缓存的RDD被使用的时，存取速度会被大大加速。一般的executor内存60%做cache，剩下的40%做task。Spark中，RDD类可以使用cache()和p

金戈拉斯·2020-01-20 14:48

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2020-01-06 16:36

Spark SQL中Kryo反序列化问题分析

1问题描述当使用Spark-sql执行HiveUDF时会发生NullPointerException(NPE)，从而导致作业异常终止。

荒湖·2020-01-01 02:57

spark-sql thriftserver 方式使用hive udf函数

1、在hive中注册udf函数addjarhdfs://hdp-hdfs01/apps/udf.jar;--添加jar，jar存放在hdfs上createfunctionyour_udf_nameas'com.alibaba.udf.UDFgetuuid';--创建函数2、在start-thriftserver.sh中添加jarsstart-thriftserver.sh--jars/apps/u

赵简书·2019-12-30 04:41

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2019-12-27 02:54

无标题文章

最近失业在家，搞点好玩的，于是看看能不能给apachespark做个ruby的api,毕竟python都有了，ruby应该也能做，何况还有JRuby.因为用spark-sql比较多，就先试试spark-sql

liprails·2019-11-04 20:04

Spark kyro Serialization

spark-sql中默认使用的是kyro的序

breeze_lsw·2019-11-01 08:17

Spark 系列（九）—— Spark SQL 之 Structured API

示例如下：valspark=SparkSession.builder().appName("Spark-SQL").master(

heibaiying·2019-09-23 08:36

记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程

：ContainerkilledbyYARNforexceedingmemorylimits使用spark命令：/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql

微步229·2019-09-16 10:55

8.推荐系统之Spark Streaming

一.sparkStreaming概述1.1SparkStreaming它是一个可扩展，高吞吐具有容错性的流式计算框架吞吐量：单位时间内成功传输数据的数量之前学习过的spark-core和spark-sql

Sssssss_A·2019-08-27 11:39

hive优化

hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

ChinaJoeEE·2019-08-13 10:12

hive优化

hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。

ChinaJoeEE·2019-08-13 10:12

Spark 系列（九）—— Spark SQL 之 Structured API

示例如下：valspark=SparkSession.builder().appName("Spark-SQL").master(

黑白影·2019-08-13 07:00

Spark-SQL-Python编程

使用Pycharm来实现Spark-SQL。

dlphay·2019-08-11 16:28

SQL-DQL

我们在MySQL和Spark-SQL使用过程中，常用的DQL如下。

dlphay·2019-08-09 16:13

【2019-07-29】spark 1.5不支持函数replace

问题描述spark1.5中，使用spark-sql无法使用replace函数问题原因目前版本兼容性问题解决措施spark不支持replace函数。使用regexp_replace替代。

学师大术·2019-07-30 10:11

【scala报错】报错Error:scalac: missing or invalid dependency detected while loading class file '**.class'

在idea里写好scala，spark-sql的脚本，运行时报这个错是说maven配依赖时下载那个Dataset.class文件时出错，spark-sql在1.6版本及之后就是Dataset，那就是关键的函数包没下载好了

Jacquelin_1·2019-06-03 17:33

Spark-SQL性能优化

性能优化1、设置Shuffle过程中的并行度：spark.sql.shuffle.partitions（SQLContext.setConf()）2、在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时，尽量给出明确的列名，比如selectnamefromstudents。不要写select*的方式。4

S_Running_snail·2019-04-13 14:43

Spark-SQL之JDBC数据源

JDBC数据源SparkSQL支持使用JDBC从关系型数据库（比如MySQL）中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用SparkCore提供的各种算子进行处理。创建方式：查询时连接Mysql：用SparkSQL处理JDBC中的数据是非常有用的。比如说，你的MySQL业务数据库中，有大量的数据，比如1000万，然后，你现在需要编写一个程序，对线上的脏数据某种复杂业务逻辑

S_Running_snail·2019-04-13 13:56

Spark-SQL之RDD转换为DataFrame

案例：（最下面）一、以编程方式动态指定元数据，将RDD转换为DataFrame-->>RDD2DataFrameProgrammatically二、使用反射的方式将RDD->>DataFrame-->>RDD2DataFrameReflectRDD转换为DataFrame之后的话，我们就可以直接针对HDFS等任何可以构建为RDD的数据，使用SparkSQL进行SQL查询了。这个功能是无比强大的。这

S_Running_snail·2019-04-13 13:04

史上最简单的spark教程第九章-SparkSQL编程Java案例实践(一)斗图王来辣

Spark-SQL的Java实践案例史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者

李时珍皮啊·2019-03-27 18:52

CHD的impala实现hive和hbase数据查询

cdh版本安装spark-sql比较复杂，cdh主推impala，可以方便进行查询启动命令：impala-shell可以直接进行hive操作。

jin6872115·2019-03-01 10:14

集群小文件太多问题（spark-sql优化）

hive外部分区表，每个分区下有200个小文件某张表有三个分区字段（partition_brand,partition_date,partition_rssc）则生成小文件个数：2*26*8*200=83,200这个表还算一般，如果按照年月日进行分区的话，小文件就太多了先查看集群动态资源配置：再查看执行spark程序配置资源：--driver-memory30g\--executor-memory

lhxsir·2019-02-22 17:26

Spark-Sql一行变多行explode使用

原数据如下：+--------------+------------+----------+|from_city_name|to_city_name|search_num|+--------------+------------+----------+|无锡市|漯河市|3||南部县|库尔勒市|3||石家庄市|开封市|2||深圳市|成都市|55||贵阳市|丽水市|7||东营市|淄博市|1||南充市|

小白鸽·2019-01-30 11:49

org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:

举个例子：用spark-sql读取hive和hbase相互映射的表，如果不一步步排查，那么就会抱着个错，可以选择什么都不做，直接select*fromtablename

Mr_Peter_c·2019-01-24 11:09

spark-sql的进阶案例

（1）骨灰级案例--UDTF求wordcount数据格式：每一行都是字符串并且以空格分开。代码实现：objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.s

原生zzy·2019-01-05 23:41

spark-sql 自定义函数

（1）自定义UDFobjectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogg

原生zzy·2019-01-05 22:14

Spark-SQL的具体编程场景

入门案例：objectSparkSqlTest{defmain(args:Array[String]):Unit={//屏蔽多余的日志Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("

原生zzy·2019-01-05 20:30

spark-sql的概述以及编程模型的介绍

1、sparksql的概述（1）sparksql的介绍： SparkSQL是Spark用来处理结构化数据（结构化数据可以来自外部结构化数据源也可以通过RDD获取）的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使用Catalyst优化器来对SQL进行优

原生zzy·2019-01-05 12:09

推荐频道

Spark-SQL

Spark - SQL查询文件数据

Spark - SQL查询文件数据

使用spark-sql报错 “Metastore contains multiple versions”

Spark - SQL查询文件数据

Spark on Hive-derby数据库-thriftserver-多客户端使用

spark-streaming中使用spark-sql做关联查询

Spark - SQL查询文件数据

Hadoop、hive、spark、spark-sql基本操作

Spark-SQL之DataFrame基本操作

Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data

spark word count环境搭建（scala）

8.Spark SQL

spark-sql 是 cbo 的吗？

MySQL+关联（上）

Oozie Kerberos环境下提交Spark-Sql任务

Hive优化的十大原则

【ElasticSearch】使用Spark-SQL进行ElasticSearch数据探查

Hive优化的十大方法

spark-sql

寒假第九天

spark-sql简单使用

Spark-SQL 面试准备 2

Spark - SQL查询文件数据

Spark SQL中Kryo反序列化问题分析

spark-sql thriftserver 方式使用hive udf函数

Spark - SQL查询文件数据

无标题文章

Spark kyro Serialization

Spark 系列（九）—— Spark SQL 之 Structured API

记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程

8.推荐系统之Spark Streaming

hive优化

hive优化

Spark 系列（九）—— Spark SQL 之 Structured API

Spark-SQL-Python编程

SQL-DQL

【2019-07-29】spark 1.5不支持函数replace

【scala报错】报错Error:scalac: missing or invalid dependency detected while loading class file '**.class'

Spark-SQL性能优化

Spark-SQL之JDBC数据源

Spark-SQL之RDD转换为DataFrame

史上最简单的spark教程第九章-SparkSQL编程Java案例实践(一)斗图王来辣

CHD的impala实现hive和hbase数据查询

集群小文件太多问题（spark-sql优化）

Spark-Sql一行变多行explode使用

org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:

spark-sql的进阶案例

spark-sql 自定义函数

Spark-SQL的具体编程场景

spark-sql的概述以及编程模型的介绍