Spark-SQL 第7页

人人都懂Spark-SQL基础操作（Scala版）

SparkSQL简单的说SparkSQL是spark用来操作结构化和半结构化数据的接口。本文来讲述一下它的一些基本操作。SparkSQL的特性无缝地将SQL查询和spark程序混合，与常规的Python/Java/scala代码高度整合，包含了连接RDD与SQL表、公开的自定义SQL函数接口等。可以从各种结构化数据源中读取数据，如（JSON、HIVE等）可以通过JDBC或者ODBC连接，Spark

数据山谷·2020-07-13 10:09

Spark-SQL优化案例---股票点击实时排行

Spark-SQL优化案例---股票点击实时排行，需求每天股票点击统计排列统计、每小时股票统计排列统计，及天与小时的环比变化。

kwu_ganymede·2020-07-13 06:21

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2020-07-12 21:21

spark sql实战—拆分数据

在spark-sql中提供了多个函数用来进行数据拆分。数据拆分的函数splitexplodepostexplodesubs

一铭·2020-07-12 19:00

【Spark】Expected only partition pruning predicates

在Hive向Spark迁移时，我们可能直接将HSQL语句直接运行在Spark-SQL上，如果查询时针对的是Hive分区表（非DataSource表，DataSource表无此问题），使用分区字段过滤时分区字段为大写

PowerMe·2020-07-12 05:51

Spark-SQL简介

分享到...复制网址邮件QQ空间新浪微博腾讯微博微信人人网易信网易微博搜狐微博QQ好友开心网飞信豆瓣一键分享查看更多(122)这是什么工具?JiaThis石山园博客园首页新闻新随笔联系管理订阅随笔-83文章-0评论-140Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、Spa

reb12345reb·2020-07-10 01:53

hive/spark-sql : Cannot find DistCp

最近发现spark-sql执行insertoverwrite等操作时最后move文件是一个一个的操作，效率较低而且还会存在bug(具体bug其余文章讲解)。因此进行了修改，修改后发现如下报错。

一日两点水·2020-07-09 12:53

重新编译spark 增加spark-sql适配CDH

参考资料让clouderamanager装的spark支持hqlApacheSpark学习：将Spark部署到Hadoop2.2.0上CDH内嵌spark版本不支持spark-sql,可能是因为cloudera

Dino系我·2020-07-09 05:12

Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询

项目实战之Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询1、Spark-Sql的UDF功能实际运用通过spark.udf.register

坚强的小土豆·2020-07-08 21:02

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive

1.安装hive如果想创建一个数据库用户，并且为数据库赋值权限，可以参考：http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$SPARK_HOME/conf目录下[root@hadoop1conf]#cd/home/tuzq/sof

to.to·2020-07-08 07:14

cdh5.9添加sparksql cli直接操作hive

由于项目需要，需要在cloudera的spark中直接用sparksql操作hive，但是cloudera的spark中没有sparksqlcli（也就是没有spark-sql命令），有关解决方案网上比较多

tianjun2012·2020-07-08 07:19

在Yarn上运行spark-shell和spark-sql命令行

有时候在做开发测试的时候，需要使用spark-shell和spark-sql命令行，除了Local和Sparkstandalone模式，spark-shell和spark-sql也可以运行在yarn上，

smile_lty·2020-07-08 06:14

【平台运维】监控进程资源使用

在做Spark-SQL压测时，需要监控Driver进程和Executor进程的CPU和内存的使用情况，以观察两种进程的压力，用了一个命令：pidstat找到Driver或者Executor的进程号，比如

PowerMe·2020-07-07 07:50

Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP

Spark2.3.0集成hive3.1.1遇到的一个坑HikariCPhive.metastore.schema.verificationfalse启动spark-sql或者创建相关对象，都会报错，错误如下

weixin_44166276·2020-07-06 05:35

hive/spark-sql经典笔试面试题（一）累加计算

问题描述在数据仓库中有这样一张表，记录了每个月的营业额，数据如下：表名：test：字段：1、month；2、money需要统计截止到每个月份的营业总额，如：截止到2019年1月份营业总额为10元截止到2019年2月份营业总额为10+10=20元截止到2019年3月份营业总额为10+10+10=30元以此类推…先贴出最终结果的样子:方案一简单粗暴计算直接使用where条件过滤符合的数据，使用sum函

波波菜鸟·2020-07-06 04:35

赫拉(hera)分布式任务调度系统之架构，基本功能(一)

文章目录为数据平台打造的任务调度系统全部文章前言架构设计目标支持任务的定时调度、依赖调度、手动调度、手动恢复支持丰富的任务类型：shell,hive,python,spark-sql,java可视化的任务

甄情·2020-07-05 13:52

spark-sql流程解析

壹禅·2020-07-05 10:49

Spark SQL合并小文件的一种方法

可通过如下调整，使其自适应的合并小文件(本人测试环境从原来的200个小文件合并成一个文件)解决方法：spark-sql>setspark.sql.adaptive.enabled=true;启用AdaptiveExe

微步229·2020-07-02 08:03

秋名山老司机从上车到翻车的悲痛经历，带你深刻了解什么是 Spark on Hive！| 原力计划...

上车前需知Sparkonhive与hiveonspark的区别1.Sparkonhive是spark通过Spark-SQL使用hive语句，操作hive,底层运行的还是sparkrdd。

CSDN资讯·2020-07-01 02:51

SparkSql 项目实战

第1章准备数据我们这次Spark-sql操作中所有的数据均来自Hive.首先在Hive中创建表,并导入数据.一共有3张表:1张用户行为表,1张城市表,1张产品表CREATETABLE`user_visit_action

zfq-0314·2020-06-30 13:44

spark-sql中视图关联表结果不匹配问题

在sparkSQL中将计算结果保存为视图，关联其他表后出现结果匹配错误，通过分析发现，是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行，真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前，将结果持久化到内存中。（1）结果不匹配println("--------增加自增列,保存为视

脆皮软心·2020-06-30 10:00

spark-sql中视图关联表结果不匹配问题

在sparkSQL中将计算结果保存为视图，关联其他表后出现结果匹配错误，通过分析发现，是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行，真正执行的时候是需要触发action(例如show,count,top.......)算子的。或者在保存为视图之前，将结果持久化到内存中。（1）结果不匹配println("--------增加自增列,保存为视

菩提本无树，明镜亦非台·2020-06-30 10:00

Spark--Spark SQL

Spark-Sql介绍及使用SparkSql概述Sparksql的前世今生什么是SparkSql为什么要学习SparkSQLDataFrame什么是DataFrameDataFrame与RDD的区别DataFrame

youAreRidiculous·2020-06-30 08:28

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

作者：周克勇，花名一锤，阿里巴巴计算平台事业部EMR团队技术专家，大数据领域技术爱好者，对Spark有浓厚兴趣和一定的了解，目前主要专注于EMR产品中开源计算引擎的优化工作。背景和动机SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划，后者的目的是针对既定的计划尽可能执行的更快。相比于Runtime，Optimizer是更加通用的、

weixin_45906054·2020-06-29 16:10

hive/spark-sql经典笔试面试题（二）连续登录天数最大

问题描述在数据仓库中存在这样一张表，记录了2019年所有用户在哪天登录了我司的网站或者app。数据如下：表名：test2字段：idstring，pdaystring需求：统计用户在本年中连续登录天数最大是几天？如：用户A在7月1、2、3、4日连续登录了4天；6、7、8日连续3天；11、12连续2天。用户A的当年最大连续登录天数是4天用户B在6月29日，6月30日，7月1日连续登录3天。用户B的当年

波波菜鸟·2020-06-29 09:14

Spark-SQL 查看执行计划API

举个例子：scala>spark.sql(“selectcount(1)asnumsfromgdm.gdm_m03_glb_item_sku_dawheredt=‘2020-06-08’”).explain(true)在Spark.sql()方法后加explain,入参为true返回类型为Unit//解析逻辑执行计划==ParsedLogicalPlan=='Project['count(1)AS

Cold丶kl·2020-06-29 06:31

Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDBC连接到

weixin_30355437·2020-06-27 18:50

Spark中使用kyro序列化

spark-sql中默认使用的是kyro的序

wangweislk·2020-06-27 13:03

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

1．JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。1.1．从MySQL中加载数据（SparkShell方式）1.启动SparkShell，必须指定mysql连接驱动jar包[[email protected]]#bin/spark-she

to.to·2020-06-26 20:06

spark-sql实现Kudu同步数据到mysql

Kudu同步数据到mysql实施方案简介目前kudu导出到mysql没有比较好的方案，临时借助spark-sql进行数据导出，处理逻辑是会把老的数据给删除再导入，已经完成了生产环境的上线。

tianjun2012·2020-06-26 19:04

入门大数据---Spark_Structured API的基本使用

示例如下：valspark=SparkSession.builder().appName("Spark-SQL").master(

一线大数据·2020-06-26 15:00

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-25 23:22

简述hive的架构

一般做数仓进行脚本开发都是通过hive与beeline进行开发，当然也有spark-sql。2、hive-webui：这个本人目前没用过，但是HUE组件是可以通过WEBUI对hive进行操作。

走在路上的大神·2020-06-25 11:22

Spark-SQL处理小文件问题

一、小文件产生的原因1、在使用sparksql处理数据的过程中，如果有shuffle产生，依赖于spark.sql.shuffle.partitions配置信息，默认为200，当处理的数据量比较大时，通常会把该值调大，以避免单个分区处理的数据太大出现异常或者拖慢整个任务的执行时间。2、如果没有shuffle产生，文件的数量依赖于数据源的文件数量以及文件是否可切分等特性决定任务的并发度即task数量

九指码农·2020-06-24 23:25

Spark-SQL adaptive 自适应框架

一、自适应框架能解决什么问题1、目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200)，一个作业一旦设置了该参数，它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，比如reduce阶段要处理的数据可能是10MB，也有可能是10

九指码农·2020-06-24 23:25

spark-sql测试总结

spark-sql测试总结最近倒腾spark-sql，原来测试都是很小的数据，由于自己的是6个虚拟机资源有限，也不能太大，于是在找了帖子。

富兰克林008·2020-06-24 18:13

10.1 spark-sql 10亿级数据交互式秒级查询可行性

当前版本:saprk2.4cdh数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOneuseofSparkSQListoexecuteSQLqueries.SparkSQLcanalsobeusedtoread

我的海_·2020-06-24 01:28

spark-sql部署实现与Hive交互

spark-sql部署版本Hadoop-2.5.0-cdh5.3.2Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上：spark

developerinit·2020-06-23 03:52

spark1.63升级到spark2.3.1环境变量配置

由于spark2.3需要jdk1.8的支持，因此spark-submit与spark-sql需要指定jdk版本，具体方式见测试用例1.修改个人用户配置文件.bashrc，注释以前的spark环境与java

cjlion·2020-06-22 23:08

Spark-sql 计算某行值占累加总数的百分比

先看原数据结构和数据样例SparkSessionspark=SparkSession.builder().master("local[*]").getOrCreate();Datasettable=spark.read().json("src/main/data/transfer_line_count.json");table.printSchema();table.show();root|--f

小白鸽·2020-06-22 16:14

Spark2.2（五）SparkSQL读写Hive

SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark"%%"spark-sql

H_w·2020-06-22 08:30

Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

我在windows下面用idea运行spark-sql程序的时候，报了上面的那个错误，我尝试了很多方法，都没有啥效果，后来我往下继续阅读错误，发现了这个实质性错误Exceptioninthread"main"java.lang.UnsatisfiedLinkError

TheManOfCoding·2020-06-22 06:40

大数据实战项目之新闻话题分析学习笔记（十）

文章目录第21章：SparkSQL快速离线数据分析SparkSQL概述及特点SparkSQL服务架构SparkSQL与Hive集成（Spark-Shell）SparkSQL与Hive集成（Spark-sql

爱学习的Neehong·2020-06-22 05:50

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-22 02:32

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-21 12:58

通过 spark sql 支持 elasticsearch 的多表（两表或以上） sql 关联查询

目前针对SQLonElasticSearch已经有了比较好的解决方案：elasticsearch-sql，其实Spark-SQL也可以满足一些基本的ES数据探查的需求，实现起来也相对简单。

丧心病狂の程序员·2020-06-21 09:01

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-06-21 03:12

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-04-13 12:41

spark无法同时启动thriftserver和spark-sql CLi的解决办法

报错如下：Initialjobhasnotacceptedanyresources:Investigatingtheclusterstate查看spark的8080页面发现，两个任务资源不够用（借用的图，忘记截屏了，但是意思一样）spark主要是因为spark默认为应用有一个初始分配资源的配置，如果机器配置不合理，就会导致资源申请失败需要修改spark-defaults.conf下的两个参数：sp

nicklbx·2020-04-12 11:48

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2020-04-11 13:12

推荐频道

Spark-SQL

人人都懂Spark-SQL基础操作（Scala版）

Spark-SQL优化案例---股票点击实时排行

Spark - SQL查询文件数据

spark sql实战—拆分数据

【Spark】Expected only partition pruning predicates

Spark-SQL简介

hive/spark-sql : Cannot find DistCp

重新编译spark 增加spark-sql适配CDH

Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive

cdh5.9添加sparksql cli直接操作hive

在Yarn上运行spark-shell和spark-sql命令行

【平台运维】监控进程资源使用

Spark2.3.0集成hive3.1.1遇到的一个坑HikariCP

hive/spark-sql经典笔试面试题（一）累加计算

赫拉(hera)分布式任务调度系统之架构，基本功能(一)

spark-sql流程解析

Spark SQL合并小文件的一种方法

秋名山老司机从上车到翻车的悲痛经历，带你深刻了解什么是 Spark on Hive！| 原力计划...

SparkSql 项目实战

spark-sql中视图关联表结果不匹配问题

spark-sql中视图关联表结果不匹配问题

Spark--Spark SQL

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

hive/spark-sql经典笔试面试题（二）连续登录天数最大

Spark-SQL 查看执行计划API

Spark-SQL之DataFrame操作大全

Spark中使用kyro序列化

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

spark-sql实现Kudu同步数据到mysql

入门大数据---Spark_Structured API的基本使用

Spark - SQL查询文件数据

简述hive的架构

Spark-SQL处理小文件问题

Spark-SQL adaptive 自适应框架

spark-sql测试总结

10.1 spark-sql 10亿级数据交互式秒级查询可行性

spark-sql部署实现与Hive交互

spark1.63升级到spark2.3.1环境变量配置

Spark-sql 计算某行值占累加总数的百分比

Spark2.2（五）SparkSQL读写Hive

Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

大数据实战项目之新闻话题分析 学习笔记（十）

Spark - SQL查询文件数据

Spark - SQL查询文件数据

通过 spark sql 支持 elasticsearch 的多表（两表或以上） sql 关联查询

Spark - SQL查询文件数据

Spark - SQL查询文件数据

spark无法同时启动thriftserver和spark-sql CLi的解决办法

Spark - SQL查询文件数据

大数据实战项目之新闻话题分析学习笔记（十）