sparkSQL 第34页

Spark RDD Transformation 练习

在过去的几个月里，我断断续续写了Spark，SparkSQL,SparkStreaming相关的文章，自己也对Spark有了一个基本的认识。但是仅仅这样不能算学会了spark。

the_conquer_zzy·2020-09-13 13:43

spark-sql读取不到parquet格式的hive表

当向Hivemetastore中读写Parquet表时，SparkSQL将使用SparkSQL自带的ParquetSerDe（SerDe：Serialize/Deserilize的简称,目的是用于序列化和反序列化

x950913·2020-09-13 10:10

PySpark SQL——SQL和pd.DataFrame的结合体

SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体，功能也几乎恰是这样，所以如果具有良好的SQL基本功和熟练的pandas运用技巧，学习PySparkSQL

Python数据之道·2020-09-13 08:32

spark系列二：sparkcore和sparksql综合案例

数据格式：日期用户搜索词城市平台版本需求：1、筛选出符合查询条件（城市、平台、版本）的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数，倒序排序4、将数据保存到hive表中1、针对原始数据（HDFS文件），获取输入的RDD2、使用filter算子，去针对输入RDD中的数据，进行数据过滤，过滤出符合查询条件的数据。2.1普通的做法：直接在fitler算子函数中，

cjx42518041·2020-09-13 08:31

spark系列二：jdbc数据源实例

SparkSQL支持使用JDBC从关系型数据库（比如MySQL）中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用SparkCore提供的各种算子进行处理。

cjx42518041·2020-09-13 08:31

spark系列二：开窗函数实例

Spark1.4.x版本以后，为SparkSQL和DataFrame引入了开窗函数，比如最经典，最常用的，row_number()，可以让我们实现分组取topn的逻辑。

cjx42518041·2020-09-13 08:31

sparkSQL之数据源读取parquet、json、csv案例

1、读取parquet数据源importorg.apache.spark.sql.SQLContextimportorg.apache.spark.{SparkConf,SparkContext}/***CreatedbyAdministratoron2017/2/3.*/objectParquetLoadData{defmain(args:Array[String]):Unit={valconf

xuehuagongzi000·2020-09-13 07:40

DF保存到mysql中或者保存成.csv .json parquet文件

DataFrame保存到mysqlimportjava.util.Propertiesimportcn.doit.sparksql.day01.utils.SparkUtilsimportorg.apache.spark.sql

大大盒子·2020-09-13 06:55

DataFrame：通过SparkSql将scala类转为DataFrame

importjava.text.DecimalFormatimportcom.alibaba.fastjson.JSONimportcom.donews.data.AppConfigimportcom.typesafe.config.ConfigFactoryimportorg.apache.spark.sql.types.{StructField,StructType}importorg.apa

北京小辉·2020-09-13 06:56

十二.SparkSQL中json数据文件转换成parquet文件

第一步首先在本地创建一个json文件,名字叫json_schema_infer.json,文件中数据的格式如下:{"name":"liguohui","gender":"M","height":160}{"name":"zhangsan","gender":"F","height":175,"age":26}{"name":"wangwu","gender":"M","height":180.3}

飞翔的小宇宙·2020-09-13 05:51

(转载)Spark sql之DataFrame基本操作

1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample

楓尘林间·2020-09-13 05:30

pyspark文件读写示例-（CSV/JSON/Parquet-单个或多个）

#创建或获取会话importpysparkfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName('PythonSparkSQLexample

詩和遠方·2020-09-13 04:50

atlas 初体验

介绍最近由于内部需要做sparksql的字段血缘关系，碰巧看到github有人提供了spark的atlas插件，准备调研一下看能否满足需求。介绍：Atlas是Hadoop的数据治理和元数据框架。

甄情·2020-09-13 02:05

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

SequoiaDB一款自研金融级分布式数据库产品，支持标准SQL和分布式事务功能、支持复杂索引查询，兼容MySQL、PGSQL、SparkSQL等SQL访问方式。

SequoiaDB_Official·2020-09-13 01:40

巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

当今时代，企业数据越发膨胀。数据是企业的价值，但数据处理也是一种技术挑战。在海量数据处理的场景，即使单机计算能力再强，也无法满足日益增长的数据处理需求。所以，分布式才是解决该类问题的根本解决方案。而在分布式领域，有两类典型产品，分别是分布式存储和分布式计算。用户只有将两者的特性充分利用，才可以真正发挥分布式架构的存储和计算能力。本文介绍SequoiaDB（分布式存储）和Spark（分布式计算）两款

SequoiaDB_Official·2020-09-13 01:39

sparksql通过hash算法使得总体性能提高39%

优化前总任务使用时间:1小时43min=103min优化后,总任务使用时间:1小时20分钟=80min优化的效率提升了,1-80/130=39%性能提高了39%默认不配置exutors-coresexcutor-cores为4那么如下配置:那么没利用的cores就只有19*4=76个core,提交的脚本如下:spark-submit--deploy-modecluster--masteryarn-

功夫老五·2020-09-12 23:21

sparkSQL的整体实现框架

这篇博客的目的是让那些初次接触sparkSQL框架的童鞋们，希望他们对sparkSQL整体框架有一个大致的了解，降低他们进入spark世界的门槛，避免他们在刚刚接触sparkSQL时，不知所措，不知道该学习什么

??yy·2020-09-12 20:05

开源大数据框架的SQL化

大数据框架，在易用性方面，都尽量SQL化，如：HBase之上的Phoenix、FackbookHive、SparkSQL、FackbookPresto、ClouderaImpala、Kylin、ESSQL

bigdata-余建新·2020-09-12 18:45

SparkSQL语法及API

2019独角兽企业重金招聘Python工程师标准>>>SparkSQL语法及API一、SparkSql基础语法1、通过方法来使用1．查询df.select("id","name").show();1>带条件的查询

weixin_34129145·2020-09-12 11:48

Spark SQL入门、基础语法、API

SparkSQL概述Spark为结构化数据处理引入了一个称为SparkSQL的编程模块。

Winyar Wen·2020-09-12 10:54

[Spark2.0]Spark SQL, DataFrames 和Datasets指南

综述SparkSQL是Spark提供的针对结构化数据处理的模块。不同于基本的SparkRDDAPI，SparkSQL提供的接口提供了更多的关于数据和计算执行的信息。

yhao浩·2020-09-12 09:51

Spark学习笔记

本文整理自《Spark快速大数据分析》，其中SparkSQL还没学习，日后补上第二章Spark入门RDD（弹性分布式数据集）是Spark对分布式数据和计算的基本抽象。

银色子弹lx·2020-09-12 09:44

理解Spark中SparkSQL模块DataSource使用

SparkSQL支持通过DataFrame接口对各种数据源进行操作。DataFrame可以使用关系转换进行操作，也可以用于创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。

杨鑫newlfe·2020-09-12 09:43

Spark SQL---入门（一）

SparkSQL---入门1.入门1.1起点：SparkSession1.2创建数据框1.3无类型的数据集操作（又名DataFrame操作）1.4以编程方式运行SQL查询1.5全局临时视图1.5创建数据集

Zhouxk96·2020-09-12 08:10

Spark高级操作之json复杂和嵌套数据结构的操作一

一，基本介绍本文主要讲spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。

大数据星球-浪尖·2020-09-12 07:46

根据key合并两个rdd有四种方式

根据key合并两个rdd有四种方式：1.用SparkSQL进行join2.用双重循环连接两个rdd3.用rdd的join方法，如下所示，合并的key不能是Tuple4.rdd中的元素仍然是键值对，只不过值是

千淘万漉·2020-09-12 06:32

Hive on Mapreduce、Hive on Spark、SparkSQL、Spark on Hive

HiveonMapreduce执行流程如下图示Step1：UI(userinterface)调用executeQuery接口，发送HQL查询语句给DriverStep2：Driver为查询语句创建会话句柄，并将查询语句发送给Compiler，等待其进行语句解析并生成执行计划Step3and4：Compiler从metastore获取相关的元数据Step5：元数据用于对查询树中的表达式进行类型检查，

L13763338360·2020-09-12 02:55

Spark之SparkSession

最近学习SparkSql时接触了SparkSession。SparkSession是Spark2.0引如的新概念。

JasonQ_NEU·2020-09-11 22:56

Spark知识点总结导航

----第一章SparkShell-----第二章执行spark程序-----第二章spark集群遇到的问题解决-----第三章sparkshuffle-----第四章RDD-----第五章共享变量-SparkSQL

落落free·2020-09-11 22:04

字节跳动在Spark SQL上的核心优化实践

字节跳动在SparkSQL上的核心优化实践大数据架构今天以下文章来源于字节跳动技术团队，作者郭俊字节跳动技术团队字节跳动的技术实践分享10月26日，字节跳动技术沙龙|大数据架构专场在上海字节跳动总部圆满结束

Hero.Lin·2020-09-11 17:10

如何系统的学习大数据框架 hadoop 和spark？

同样，在spark的基础上也衍生出了很多组件，比如sparkstreaming、sparkSQL、mllib等。其中s

大数据开发交流·2020-09-11 16:31

Spark SQL应用解析

一SparkSQL概述1.1什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

dawandi6620·2020-09-11 14:47

spark大数据分析:spark Struct Strreaming(20)结构化流认知

文章目录优点案例编程模型输出模式优点structStreaming构建在sparkSQL之上,将数据以增量的方式连续的读物到DataFrame,DataSet中,并可以像使用静态的DataFrame.DataSet

_尽_际·2020-09-11 11:27

Zeppelin的入门使用系列之使用Zeppelin来运行Spark SQL（四）

前期博客Zeppelin的入门使用系列之使用Zeppelin来创建临时表UserTable（三）1、运行年龄统计的SparkSQL(1)输入SparkSQL时，必须在第一行输入%sql。

weixin_34261739·2020-09-11 11:31

sparksql实现单词计数

1、创建SparkSessionvalsparkSession=SparkSession.builder().appName("SparkWordCount").master("local[2]").getOrCreate()2、加载数据，使用dataset处理数据集read来读取可以直接返回DataSet[String],这是个比RDD更高级的数据集它返回一个列名为value的视图+------

方兵兵·2020-09-11 10:05

第72课：Spark UDF和UDAF解密学习笔记

SparkUDF和UDAF解密学习笔记本期内容：1SparkUDF实战2SparkUDAF实战UDAF=USERDEFINEAGGREGATEFUNCTION下面直接实战编写UDF和UDAF：packageSparkSQLByScalaimportorg.apache.spark.sql.expressions

梦飞天·2020-09-11 10:38

SparkSql读取多行json文件产生-- _corrupt_record: string (nullable = true)错误！！

所用的软件版本：spark2.3.0hbase1.4.6IDEA2019.1在利用spark.read.json("e:/test.json")读取多行的json文件，利用DataFrame的DF.show()显示，除了_corrupt_record这行有全部的json内容，其他column全部都是null，DF.printSchema()的结果是：root|--_corrupt_record:s

reedom1991·2020-09-11 10:56

pyspark+dataframe+wordcount 版本

Java、python版本，且为基于RDD数据格式的方法，该方法较简单，但门槛较高，若采用dataframe的方法，则结果更好理解，但查询函数的过程较为复杂，网上没有找到合适的版本，所以自己写一个，可以采用sparksql

刁小蛮·2020-09-11 09:07

sparksql 2.x 写WordCount

packagecom.ws.sparksqlimportorg.apache.spark.sql.

念念不忘_·2020-09-11 08:01

使用Spark编写一个简单的word count单词统计及Spark基本架构及运行原理

1、Spark基本架构及原理Spark:spark只是一个计算框架，它的能力是在现有数据的基础上提供一个高性能的计算引擎，然后提供一些上层的处理工具比如做数据查询的SparkSQL、做机器学习的MLlib

Mr_wang0916·2020-09-11 07:45

spark常见问题处理

1、sparkthriftserver报以下错误，其他诸如hive/sparksql等方式均正常ERRORActorSystemImpl:Uncaughtfatalerrorfromthread[sparkDriverActorSystem-akka.actor.default-dispatcher

风是外衣衣衣·2020-09-11 07:56

sparksql优化之路

最近一直由于公司一个重要的作业，从Tez切换到sparksql，需要对sparksql进行优化。

zxl333·2020-09-11 06:00

spark2学习(3) 之Spark SQL

SparkSQL是用于结构化数据处理的Spark模块。与基本的SparkRDDAPI不同，SparkSQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。

willwill1101·2020-09-11 05:58

Spark SQL 与HQL的区别

一、什么是SparkSQL？

司徒宇恒·2020-09-11 05:17

Spark SQL 与 Hive 的区别简介【学习笔记】

一、什么是SparkSQL？

Diego_zh·2020-09-11 05:58

spark读取多个目录下多个文件

最近项目要用准时数据，于是改用sparkSQL还对数据进行统计。kafka落到HDFS上是按照天分区，小时文件。

weixin_42412645·2020-09-11 05:54

SparkSql 控制输出文件数量且大小均匀(distribute by rand())

@羲凡——只为了更好的活着SparkSql控制输出文件数量且大小均匀(distributebyrand())Q：Spark如何控制文件你输出数量？

羲凡丞相·2020-09-11 05:38

初学者【 Cannot start process, the working directory 'E:\sparksql33\sparksql3】

在对程序进行编译时出现Cannotstartprocess,theworkingdirectory'E:\sparksql33\sparksql3解决办法：1.点击导航栏run---->Editconfigurations

爱哭的小孩TnT·2020-09-11 05:31

sparksql 优化，性能提高了3-4倍

这几天代码跑得特别慢，一个大sql跑4-6h，着实急人,大sql如下：valbidDetailDf=ss.sql(s"""selectapp,day,hour,adx,os,osv,country,impType,sum(cnt)ascnt,sum(request)asrequest,sum(response)asresponse,sum(bid)asbid,sum(timeout)astimeo

功夫老五·2020-09-11 05:59

spark：sparksql：读取文件/读取hive表/写出到hive/写出到mysql

packagebi.tagimportjava.util.Propertiesimportbi.utils.{ConfigUtils,KoboldAppUtil}importorg.apache.log4j.{Level,Logger}importorg.apache.spark.sql.{SaveMode,SparkSession}importorg.slf4j.LoggerFactory/**

花和尚也有春天·2020-09-11 05:57

推荐频道

sparkSQL

Spark RDD Transformation 练习

spark-sql读取不到parquet格式的hive表

PySpark SQL——SQL和pd.DataFrame的结合体

spark系列二：sparkcore和sparksql综合案例

spark系列二：jdbc数据源实例

spark系列二：开窗函数实例

sparkSQL之数据源读取parquet、json、csv案例

DF保存到mysql中或者保存成.csv .json parquet文件

DataFrame：通过SparkSql将scala类转为DataFrame

十二.SparkSQL中json数据文件转换成parquet文件

(转载)Spark sql之DataFrame基本操作

pyspark文件读写示例-（CSV/JSON/Parquet-单个或多个）

atlas 初体验

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

sparksql通过hash算法使得总体性能提高39%

sparkSQL的整体实现框架

开源大数据框架的SQL化

SparkSQL语法及API

Spark SQL入门、基础语法、API

[Spark2.0]Spark SQL, DataFrames 和Datasets指南

Spark学习笔记

理解Spark中SparkSQL模块DataSource使用

Spark SQL---入门（一）

Spark高级操作之json复杂和嵌套数据结构的操作一

根据key合并两个rdd有四种方式

Hive on Mapreduce、Hive on Spark、SparkSQL、Spark on Hive

Spark之SparkSession

Spark知识点总结导航

字节跳动在Spark SQL上的核心优化实践

如何系统的学习大数据框架 hadoop 和spark？

Spark SQL应用解析

spark大数据分析:spark Struct Strreaming(20)结构化流认知

Zeppelin的入门使用系列之使用Zeppelin来运行Spark SQL（四）

sparksql实现单词计数

第72课：Spark UDF和UDAF解密学习笔记

SparkSql读取多行json文件产生-- _corrupt_record: string (nullable = true)错误！！

pyspark+dataframe+wordcount 版本

sparksql 2.x 写WordCount

使用Spark编写一个简单的word count单词统计及Spark基本架构及运行原理

spark常见问题处理

sparksql优化之路

spark2学习(3) 之Spark SQL

Spark SQL 与HQL的区别

Spark SQL 与 Hive 的区别简介【学习笔记】

spark读取多个目录下多个文件

SparkSql 控制输出文件数量且大小均匀(distribute by rand())

初学者【 Cannot start process, the working directory 'E:\sparksql33\sparksql3】

sparksql 优化，性能提高了3-4倍

spark：sparksql：读取文件/读取hive表/写出到hive/写出到mysql