sparkSQL 第39页

Spark SQL：Hive数据源复杂综合案例实战

一、Hive数据源实战SparkSQL支持对Hive中存储的数据进行读写。操作Hive中的数据时，必须创建HiveContext，而不是SQLContext。

weixin_34390996·2020-08-18 12:36

8.Spark SQL：Hive数据源实战

Hive数据源实战SparkSQL支持对Hive中存储的数据进行读写。操作Hive中的数据时，必须创建HiveContext，而不是SQLContext。

十点进修·2020-08-18 12:29

第3章 SparkSQL解析

第3章SparkSQL解析3.1新的起始点SparkSession在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext

weixin_30914981·2020-08-18 12:28

59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例

weixin_30830327·2020-08-18 12:25

SparkSQL读取Hive中的数据

下面主要是介绍一下如何通过SparkSQL读取HIVE中的数据。

weixin_30639719·2020-08-18 12:48

spark SQL（三）数据源 Data Source----通用的数据加载/保存功能

SparkSQL的数据源------通用的数据加载/保存功能SparkSQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作，也可以用来创建临时视图。

weixin_30577801·2020-08-18 12:16

【大数据Spark_SparkSQL系列_1】Spark SQL基础（五星重要）

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、Graph

weixin_30384031·2020-08-18 12:39

spark面试题

Spark面试题1.sparksql执行过程中发生数据倾斜导致任务卡顿该怎么解决？？？

Dream__Boy·2020-08-18 12:03

Spark 企业级实战：SparkSQL 多数据源整合

Spark生态较为完善，已经被越来越多的互联网公司应用于生产项目，对于ETL开发人员而言，日常数据同步任务和临时取数任务如果有基于Spark封装的一个小工具，办公效率会有大幅度提升。本场Chat会阐述企业现有的数据处理的痛点，以一个真实场景作为切入口，展开对需求的分析，开发一个简单且通用的工具，提升团队作战效率。本场Chat您将学到如下内容：掌握多数据源整合的方法（一条SQL实现MySQLjoin

蔚1·2020-08-18 12:18

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器

大数据技术之_19_Spark学习_03第1章SparkSQL概述1.1什么是SparkSQL1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2DataFrame1.2.3DataSet1.2.4

黑泽君·2020-08-18 12:58

SparkSQL编程之DataFrame详解

SparkSession新的起始点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询

大数据小同学·2020-08-18 12:21

SparkSQL编程之DataSet以及DataFrame与DataSet的互操作

DataSetDataset是具有强类型的数据集合，需要提供对应的类型信息。DataSet创建创建一个样例类scala>caseclassPerson(name:String,age:Long)definedclassPerson创建DataSetscala>valcaseClassDS=Seq(Person("Andy",32)).toDS()caseClassDS:org.apache.spa

大数据小同学·2020-08-18 12:21

SparkSQL应用解析

文章目录第1章SparkSQL概述1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2Dataframe1.2.3Dataset1.2.4三者的共性1.2.5三者的区别第2章执行

靛蓝忆·2020-08-18 12:43

大数据晋级之路（8）Scala,Spark分布式安装

一、Spark介绍Spark是一个生态系统，内核由Scala语言开发，为批处理（SparkCore）、交互式（SparkSQL）、流式处理（SparkStreaming）、机器学习（MLlib）、图计算

King-Long·2020-08-18 12:37

Spark/Scala/SparkSQL问题记录：使用Scala语言遍历DateFrame/DataSet数据集里的每一行、每一列

在贴代码之前先介绍一下DataFrame与DataSet，以下介绍内容来自以下博客：https://www.cnblogs.com/seaspring/p/5831677.htmlDataFrameDataFrame是一个分布式集合，其中数据逻辑存储结构为有名字的列。它概念上等价于关系数据库中的表，一个列名对应很多列值，但底层做了更多的优化。DataFrame可以从很多数据源构建，比如：已经存在的

wcl_24·2020-08-18 12:31

Spark_SparkSQL / DataFrame 中 groupby 数据倾斜处理方法

Hive参考文章https://blog.csdn.net/u010003835/article/details/105495135下面我们看下SparkSQL如何解决这种GroupBy类型的数据倾斜思路如下

高达一号·2020-08-18 12:56

110.Spark大型电商项目-各区域热门商品统计-Spark SQL数据倾斜解决方案

StriveFarrell·2020-08-18 11:02

大数据必会指南

Yarn）04.HBase（JavaAPI操作+Phoenix）05.Hive(Hql基本操作和原理理解）06.Kafka07.Storm08.Scala需要09.Python10.Spark(Core+sparksql

sonofbaba·2020-08-18 11:31

Spark Streaming入门详解

SparkStreaming的流式处理非常强大的一个功能是可以在线处理，ML，SparkSQL等流进来的数据，这也是Spark提供的一体化，多元化的技术架构设计带来的优势。3.SparkSt

snail_gesture·2020-08-18 11:29

Spark SQL 和 Hive 的交互

SparkSQL可以读写Hive表SparkSQLalsosupportsreadingandwritingdatastoredinApacheHive.However,sinceHivehasalargenumberofdependencies

ManBeCool·2020-08-18 11:53

RDD&DF&DS的相互转化

RDD&DF&DS的相互转化RDD\DF\DS之间的简单转换，当然可以通过Schema创建对应的DFpackagecom.shufang.sparksqlimportcom.shufang.beans.Numimportcom.shufang.utils.SparkUtilimportorg.apache.spark.rdd.RDDimportorg.apache.spark

稳哥的哥·2020-08-18 11:15

本地local和kafka监听本地文件，进行sparkstreaming实时输出

所用软件版本：spark2.3.0kafka1.10IDEA2019.1(spark-streaming-kafka-0-8-2.11-2.3.0)先是用sparksql来监听特定目录下的某一个source

reedom1991·2020-08-18 11:03

Spark SQL多数据源交互_第四章

SparkSQL可以与多种数据源交互，如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源写数据:packagecn.itcast.sqlimportjava.util.Propertiesimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apache.sp

……utf-8·2020-08-18 11:27

【Spark】Spark基础练习题（三）

（图片来源于网络，侵删）我又带来一堆Spark题了，这次是SparkSQL的！！！废话不多说，上题！！！

默默走开·2020-08-18 11:48

SparkSQL读取hive中的数据，行转列的两种方式【行转列专用函数，UDAF】

先给数据：viemployees1,George,nan2,honey,nv3,georgedage,nan4,kangkang,nv上传数据：hdfsdfs-mkdir/secondhdfsdfs-putemployees/second/创表：createexternaltableemployees(emp_noint,emp_nameString,emp_genderString)rowfor

乔治大哥·2020-08-18 11:05

Spark-SQL应用解析

DataFrameDataFrame->RDD2.RDDDataSetRDD->DataSetDataSet->RDD3.DataFrameDataSetDataFrame->DataSetDataSet->DataFrame三、SparkSQL

2NaCl·2020-08-18 11:05

SparkSQL随机DataFrame/DataSet数据源query查询用户数据（Java版/Scala版）

SparkSQL随机DataFrame/DataSet数据源query查询用户数据（Java版/Scala版）SparkSQL入门小demo，主要操作是构造DataFrame/Dataset，以及通过它们去执行

王磊本人·2020-08-18 11:32

SparkSQL操作Hive数据源

连接Hive与SparkSQL将hive安装目录中conf目录下的hive-site.xml拷贝至spark安装目录下的conf目录。

寒暄·2020-08-18 11:01

Spark-SQL在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF

POMorg.apache.sparkspark-core_2.112.1.1org.apache.sparkspark-sql_2.112.1.1SparkCoreTestnet.alchim31.mavenscala-maven-plugin3.3.2compiletestCompileDF风格编程代码实现//1.创建SparkSession对象valspark:SparkSession=Sp

SmallScorpion·2020-08-18 11:55

SparkSql概述

需要Sql的原因：1.事实上的标准2.易学易用3.受众面大Shark：HIveontezHiveonmapreduceHiveonSparkshark推出：欢迎，基于spark，基于内存的列式存储，与hive能够兼容缺点：hiveql解析，逻辑执行计划生成，执行计划的优化是依赖于hive的仅仅是把物理执行计划从mr作业替换为spark作业hive没有注意线程安全Shark终止以后，产生了两个分支：

慧有未来·2020-08-18 11:34

sparkSQL数据倾斜

场景一：大表join小表：把小表broadcast，和cache到内存，并且大表加了distributebyrand()然后在spark-submit中加一个conf：spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小，单位为字节，只要表大小小于此取值（此处约为200m），且被执行过cachetable的小表，在做join时，都会启用h

Sshine___·2020-08-18 11:31

hive导入hbase批量入库----单条put 、批量put 、Mapreduce、 bluckload

2、使用sparksql操作完hive处理好之后，调用HBase的AP

曹雪朋·2020-08-18 11:09

spark2.3.1 on hive2.2.1集成

spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过sparksql与hive结合实现数据分析将成为一种最佳实践。

mingchen_peng·2020-08-18 11:37

Spark从入门到精通8 -- Spark SQL

SparkSQLSparkSQL简介SparkSQL是用来操作结构化数据的程序包，支持多种数据源(Hive表、Parquet、JSON),可以基于SparkSQL进行数据的查询，为数据计算提供数据入口。

开着小马奔腾哟·2020-08-18 11:50

SparkSQL的几种输出格式及压缩方式

1、json默认不压缩可用压缩格式：none,bzip2,gzip,lz4,snappy,deflate2、parquet默认压缩格式：snappy可用压缩格式：none,snappy,gzip,lzovalPARQUET_COMPRESSION=buildConf("spark.sql.parquet.compression.codec").doc("Setsthecompressioncode

机智的大脚猴·2020-08-18 11:01

Spark-Sql版本升级对应的新特性汇总

Spark-Sql版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善，2014年6月1日ReynoldXin宣布：停止对Shark的开发。

kwu_ganymede·2020-08-18 11:24

Spark SQL中防止数据倾斜sqlContext.sql中添加distribute by rand()

一、在SparkSQL中有时会因为数据倾斜影响节点间数据处理速度，可在SQL中添加distributebyrand()来防止数据倾斜valdataRDD=sqlContext.sql("selectA,

hjw199089·2020-08-18 11:21

大数据系统-SparkSQL基于内存的大数据分析引擎

[1]参考文章：高彦杰，陈冠诚SparkSQL:基于内存的大数据分析引擎《程序员》2014.8AMPLab将大数据分析负载分为三大类型：批量数据处理、交互式查询、实时流处理。

gao8658·2020-08-18 11:02

基于案例一节课贯通Spark Streaming流计算框架的运行源码

cary_1991·2020-08-18 10:49

大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结

==========SparkSQL==========1、SparkSQL是Spark的一个模块，可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC、ODBC服务器功能

aodawu2891·2020-08-18 10:02

如何开发SparkSQL项目？

前言Spark是企业中用的比较多的大数据计算框架，它主要由SparkCore、SparkSQL、SparkStreaming这三个模块组成，实时计算主要使用SparkStreaming，离线部分的数据处理则主要使用

曲健磊·2020-08-18 10:55

SparkSQL on Hive 环境配置

一、从linux上的shell访问1、Spark要接管Hive需要把hive-site.xml拷贝到conf/目录下[root@hadoop151conf]#cp/opt/module/hive/conf/hive-site.xml/opt/module/spark/conf/[root@hadoop151conf]#pwd/opt/module/spark/conf[root@hadoop151

火成哥哥·2020-08-18 10:51

SparkSQL 基础编程

一、介绍SparkCore中，如果想要执行应用程序，需要首先构建上下文环境对象SparkContext，SparkSQL其实可以理解为对SparkCore的一种封装，不仅仅在模型上进行了封装，上下文环境对象也进行了封装

火成哥哥·2020-08-18 10:19

PySpark---SparkSQL中的DataFrame(三)

1.filter(condition)"""Filtersrowsusingthegivencondition.:func:`where`isanaliasfor:func:`filter`.:paramcondition:a:class:`Column`of:class:`types.BooleanType`orastringofSQLexpression."""按照传入的条件进行过滤，其实wh

XiaodunLP·2020-08-18 10:13

PySpark---SparkSQL中的DataFrame(二)

1.colRegex(colName):"""Selectscolumnbasedonthecolumnnamespecifiedasaregexandreturnsitas:class:`Column`."""用正则表达式的方式返回我们想要的列。df.show()#这里注意`的使用df.select(df.colRegex("`(grade)+.+`")).show()上面的(grade)是一个

XiaodunLP·2020-08-18 10:13

Spark----Spark SQL概述

SparkSQL概述什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

XiaodunLP·2020-08-18 10:13

pyspark之DataFrame写hive表方式

文章目录spark语句静态分区动态分区sparkSQL处理方法例子最近用spark写hive的过程中，遇到了一些问题，故此把这一块整理整理，供使用参考spark语句hive中静态分区和动态分区的区别在于

SummerHmh·2020-08-18 10:32

SparkSQL 核心编程

文章目录SparkSQL核心编程新的起点DataFrame创建DataFrame从Spark数据源进行创建从RDD进行转换从HiveTable进行查询返回SQL语法DSL语法RDD转换为DataFrameDataFrame

溜三丝耶·2020-08-18 10:25

[2.2]Spark DataFrame操作（二）之通过反射实现RDD与DataFrame的转换

分析上述问题属于SparkSQL类问题：即查询出第三个字段值为11大

彭宇成·2020-08-18 10:15

推荐频道

sparkSQL

Spark SQL：Hive数据源复杂综合案例实战

8.Spark SQL：Hive数据源实战

第3章 SparkSQL解析

59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例

SparkSQL读取Hive中的数据

spark SQL（三）数据源 Data Source----通用的数据 加载/保存功能

【大数据Spark_SparkSQL系列_1】Spark SQL基础（五星重要）

spark面试题

Spark 企业级实战：SparkSQL 多数据源整合

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析 、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器

SparkSQL编程之DataFrame详解

SparkSQL编程之DataSet以及DataFrame与DataSet的互操作

SparkSQL应用解析

大数据晋级之路（8）Scala,Spark分布式安装

Spark/Scala/SparkSQL问题记录：使用Scala语言遍历DateFrame/DataSet数据集里的每一行、每一列

Spark_SparkSQL / DataFrame 中 groupby 数据倾斜处理方法

110.Spark大型电商项目-各区域热门商品统计-Spark SQL数据倾斜解决方案

大数据必会指南

Spark Streaming入门详解

Spark SQL 和 Hive 的交互

RDD&DF&DS的相互转化

本地local和kafka监听本地文件，进行sparkstreaming实时输出

Spark SQL多数据源交互_第四章

【Spark】Spark基础练习题（三）

SparkSQL读取hive中的数据，行转列的两种方式【行转列专用函数，UDAF】

Spark-SQL应用解析

SparkSQL随机DataFrame/DataSet数据源query查询用户数据（Java版/Scala版）

SparkSQL操作Hive数据源

Spark-SQL在IDEA中创建SparkSQL程序|DF风格编程|RDD转换为DF

SparkSql概述

sparkSQL数据倾斜

hive导入hbase批量入库----单条put 、批量put 、Mapreduce、 bluckload

spark2.3.1 on hive2.2.1集成

Spark从入门到精通8 -- Spark SQL

SparkSQL的几种输出格式及压缩方式

Spark-Sql版本升级对应的新特性汇总

Spark SQL中防止数据倾斜sqlContext.sql中添加distribute by rand()

大数据系统-SparkSQL基于内存的大数据分析引擎

基于案例一节课贯通Spark Streaming流计算框架的运行源码

大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结

如何开发SparkSQL项目？

SparkSQL on Hive 环境配置

SparkSQL 基础编程

PySpark---SparkSQL中的DataFrame(三)

PySpark---SparkSQL中的DataFrame(二)

Spark----Spark SQL概述

推荐系统

pyspark之DataFrame写hive表方式

SparkSQL 核心编程

[2.2]Spark DataFrame操作（二）之通过反射实现RDD与DataFrame的转换

spark SQL（三）数据源 Data Source----通用的数据加载/保存功能

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器