sparkSQL 第29页

SQL on Hadoop 之查询效率分析

本文选择了一句比较有代表性的查询语句，分别用不同的执行引擎执行，hiveonmr用时278s，hiveontez用时44s，sparkSQL用时24s，而presto只要18s。

群演_·2021-06-22 03:22

Spark--SparkCore面试知识点总结

如果说HDFS是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首选标准；速度更快：从使用sparksql操作普通文件CSV和parquet文件速度对比上看，绝大多数情况会比使用

李小李的路·2021-06-21 17:07

Spark学习(1)-架构原理

它擅长批量数据处理，处理流工作负载，交互式查询，机器学习等；它可以通过standalone模式，yarn-client或者yarn-cluster等模式在hadoop集群中运行；而依托在spark数据处理之上的有SparkSql

技术蜗牛·2021-06-21 07:26

SparkSQL执行update操作修改mysql数据

//user表样例类caseclassUser1(id:Long,name:String,password:String,imgUrl:String,update_date:String)objectSparkSQLUpdateMySQLOfJDBC

·2021-06-18 21:35

快乐大数据第10课 SparkSQL

i:10010#SparkSQL概述及原理提供了两种操作数据的方式?SQL查询?DataFrame和DataSetAPI1提供了非常丰富的数据源API?

快乐大数据·2021-06-15 08:46

2/2)SparkSQL – 从0到1认识Catalyst

SparkSQL–从0到1认识Catalyst–有态度的HBase/Spark/BigDatahttp://hbasefly.com/2017/03/01/sparksql-catalyst/最近想来，

葡萄喃喃呓语·2021-06-14 11:55

sparkSQL中UDF的使用

在spark中使用sql时一些功能需要自定义方法实现，这时候就可以使用UDF功能来实现多参数支持UDF不支持参数*的方式输入多个参数，例如String*，不过可以使用array来解决这个问题。定义udf方法，此处功能是将多个字段合并为一个字段defallInOne(seq:Seq[Any],sep:String):String=seq.mkString(sep)在sql中使用sqlContext.

breeze_lsw·2021-06-12 01:34

Hudi 0.6.0 源码阅读（数据写入）

源码阅读（数据写入）HoodieSparkSqlWriter.write(){//数据写入checkWriteStatus(){//提交数据client.commit(commitTime,writeStatuses

海南中剑·2021-06-10 23:44

spark中DataFrame的使用方法

2020/07/08-引言《LearningSpark》中使用的spark版本还是比较低的，所以对于DataFrame部分基本上没有涉及，虽然在sparkSql中提到了schemaRDD这个内容。

VChao·2021-06-10 19:05

大量数据量下，很实用的共享变量

最近在负责SparkStreaming结合SparkSql的相关项目，语言是Java，留下一些笔记，也供大家参考，如有错误，请指教！

jason__huang·2021-06-10 14:40

SparkSQL的shell命令

进入SparkSQL：spark-sql--masteryarn--driver-cores1--driver-java-options"-Dspark.driver.port=4050"--confspark.sql.warehouse.dir

汤圆毛毛·2021-06-10 05:50

如何基于 Pulsar 和 Spark 进行批流一体的弹性数据处理？

2017年7月，Spark2.2.0版本正式推出的Sparkstructuredstreaming将SparkSQL作为流处理、批处理底层统一的执

StreamNative·2021-06-09 21:13

SparkSQL数据源之Hive数据库

ApacheHive是Hadoop上的SQL引擎，SparkSQL编译时可以包含Hive支持，也可以不包含。

大数据小同学·2021-06-09 08:06

SparkSQL实战

数据说明数据集是货品交易数据集image.png每个订单可能包含多个货品，每个订单可以产生多次交易，不同的货品有不同的单价加载数据tbStock：scala>caseclasstbStock(ordernumber:String,locationid:String,dateid:String)extendsSerializabledefinedclasstbStockscala>valtbStoc

大数据小同学·2021-06-08 19:05

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

手动指定选项SparkSQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。

大数据小同学·2021-06-08 11:44

中文文档 pyspark.sql.DataFrame

一个DataFrame相当于在SparkSQL中一个相关的表,可在SQLContext使用各种方法创建,2.1agg(*exprs)没有组的情况下聚集整个DataFrame(df.groupBy.agg

cassie_xs·2021-06-08 02:46

通过扩展 Spark SQL ，打造自己的大数据分析引擎

SparkSQL的Catalyst，这部分真的很有意思，值得去仔细研究一番，今天先来说说Spark的一些扩展机制吧，上一次写Spark，对其SQL的解析进行了一定的魔改，今天我们按套路来，使用砖厂为我们提供的机制

麒思妙想·2021-06-06 18:00

[新星计划]通过扩展 Spark SQL ，打造自己的大数据分析引擎

SparkSQL的Catalyst，这部分真的很有意思，值得去仔细研究一番，今天先来说说Spark的一些扩展机制吧，上一次写Spark，对其SQL的解析进行了一定的魔改，今天我们按套路来，使用砖厂为我们提供的机制

麒思妙想·2021-06-06 14:34

Spark sql实现自定义函数

Sparksql实现自定义函数文章目录一、为什么要自定义function？二、实现自定义的函数三、测试效果总结一、为什么要自定义function？

郭朝阳@·2021-06-05 15:02

DataSkew —— 数据倾斜问题解析及解决方案实践总结小记

DateSkewSpark为何会出现DateSkew数据倾斜的原因：数据分区的策略：定位数据倾斜问题查看数据倾斜的key的分布情况：数据倾斜产生的原理产生数据倾斜的操作不同情形倾斜数据处理方案Hql和SparkSql

扫地增·2021-06-05 12:31

Spark Streaming入门

概述Hadoop的MapReduce及SparkSQL等只能进行离线计算，无法满足实时性要求较高的业务需求，例如实时推荐，实时网站性能分析等，流式计算可以解决这些问题，sparkStreaming就是现在常用的流式计算框架

董二弯·2021-06-04 20:03

高级大数据研发工程师面试题总结

1.Spark处理数据流程、并行度决定机制2.SparkSQL解析SQL的详细流程、hash广播底层实现3.Sparkshuffle、shuffle文件4.groupByKey、reduceByKey、

大数据学习与分享·2021-06-04 09:03

Hive 元数据表结构详解_豪猪的博客-CSDN博客_hive元数据表结构

本文介绍Hive元数据库中一些重要的表结构及用途，方便Impala、SparkSQL、Hive等

·2021-06-01 17:00

org.apache.spark.sql.catalyst.catalog.ExternalCatalog as super class

一、报错在进行SparkSql代码调试时，代码确认无误执行报如下错误：Exceptioninthread"main"java.lang.IncompatibleClassChangeError:classorg.apache.spark.sql.hive.HiveExternalCataloghasinterfaceorg.apache.spark.sql.catalyst.catalog.Ext

扎西的德勒·2021-05-26 14:37

2021年大数据基础（四）：大数据业务分析基本步骤

目录大数据业务分析基本步骤明确分析目的和思路数据收集flumesqoopkettle数据处理-ETLMapReduceSpark数据分析HiveSQLSparkSQL数据展现报告撰写部门组织结构大数据业务分析基本步骤典型的大数据分析包含以下几个步骤

Lansonli·2021-05-22 21:35

Spark基础知识

提供了内存计算和基于DAG的任务调度执行机制，减少了迭代计算时的I/O开销；Spark的设计遵循“一个软件栈满足不同应用场景”的理念，形成了一套完整的生态系统，既能够提供内存计算框架，也可以支持SQL即席查询（SparkSQL

冰科技·2021-05-19 19:53

Spark job server使用调研

“SparkasService”：针对job和contexts的各个方面提供了REST风格的api接口进行管理支持SparkSQL、Hive、StreamingConte

寻找的脚步·2021-05-19 10:11

2021年大数据Spark（五十四）：扩展阅读 SparkSQL底层如何执行

目录扩展阅读SparkSQL底层如何执行RDD和SparkSQL运行时的区别Catalyst扩展阅读SparkSQL底层如何执行RDD和SparkSQL运行时的区别RDD的运行流程大致运行步骤先将RDD

Lansonli·2021-05-18 23:52

Spark SQL，DataFrame以及 Datasets 编程指南 - For 2.0

牛肉圆粉不加葱·2021-05-17 10:06

22list『DT_Spark 』第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)

第114课:SparkStreaming+Kafka+SparkSQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)-段智华的博客-博客频道-CSDN.NEThttp

葡萄喃喃呓语·2021-05-16 12:49

Antlr4 - 自定义SparkSQL解析

>Antlr4是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器，最出名的Spark计算引擎2.x就是用它来解析SQL的，是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7

kikiki5·2021-05-14 15:58

spark从入门到放弃三十七:Spark Sql(10)自定义sql函数

文章地址：http://www.haha174.top/article/details/257703自定义SparkSql的函数下面给出一个示例注册一个'strLen'的函数求某个字段的长度sqlContext.udf.register

意浅离殇·2021-05-14 09:50

FLINK1.12.2 使用问题记录（持续更新）

StreamExecutionEnvironment创建StreamTableEnvironment写hive报错2.在IDE中无法写入hive3.flink使用catalog写入hive报错没有权限（相同问题在sparksql

arwenlin·2021-05-13 15:46

海量数据分流处理-------一致性哈希算法

到现在也为止也做过不少工程项目，掌握了不少我只认为是工具的东西，比如Hadoop中的HDFS、Mapreduce、Yarn、HBase、Hive、Sqoop、Flume、Mahout、Pig、Zookeeper等和Spark中的SparkSQL

狼牙战士·2021-05-12 16:04

Spark Sql源码详细分析

SparkSql源码分析文章目录SparkSql源码分析一、SparkSQL架构设计二、代码分析1、Demo2、Catalyst执行过程三、执行计划分析1、sql解析阶段Parser2、绑定逻辑计划Analyzer3

郭朝阳@·2021-05-09 18:01

SparkSQL温习笔记-1

一、介绍Shark是SparkSQL（其完全脱离了Hive的限制）的前身，Shark的性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用

Hive_何伟·2021-05-09 17:57

Spark Sql JDBC实现聚合、union、同数据源Join等下推

SparkSqlJDBC实现聚合、union、同数据源Join等下推简单熟悉下SparkSql处理JDBC数据源数据sparkSql处理JDBC数据源的代码比较简单，大家可以自行阅读官网使用demo。

郭朝阳@·2021-05-09 16:31

Spark的那些事（一）

一Spark生态：1111.png支持SparkSql用于sql和结构化数据查询处理；支持MLlib用于机器学习；支持GraphX用于图形处理；支持SparkStreaming和StructuredSql

假文艺的真码农·2021-05-09 06:46

Structured Streaming概述

简介StructuredStreaming（结构化流）是一种基于SparkSQL引擎构建的可扩展且容错的流处理引擎。您可以以静态数据表示批量计算的方式来表达流式计算。

盗梦者_56f2·2021-05-07 22:28

SparkSql 读取文件/读取hdfs文件

SparkSql读取文件/读取hdfs文件读取本地：imagevalspark=SparkSession.builder().appName("SQL-JSON").master("local[4]")

Mr_Alfred·2021-05-07 06:56

Antlr4 - 自定义SparkSQL解析

>Antlr4是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器，最出名的Spark计算引擎2.x就是用它来解析SQL的，是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7

kikiki4·2021-05-06 17:00

Spark SQL学习

SparkSQL1.SparkSQL概述从Spark1.0开始，正式成为生态系统的一员专门处理结构化数据的Spark重要组件提供了两种操作数据的方式SQL查询DataFrame和DataSetAPISparkSQL

溯水心生·2021-05-05 21:48

SparkSQL常用操作

1、从json文件创建dataFramevaldf:DataFrame=sqlContext.read.json("hdfs://master:9000/user/spark/data/people.json")valpeople=df.registerTempTable("person")valteenegers:DataFrame=sqlContext.sql("selectname,agef

BIGUFO·2021-05-03 12:20

Kyuubi服务源码解析：KyuubiServer

Kyuubi服务与HiveServer2服务非常相似，在Kyuubi中很多类的设计和代码逻辑都参照了HiveServer2（SparkSQLThriftServer也是同样的道理）。

此间少年仍犹在·2021-05-02 15:33

Spark-DataSet学习

Dataset是Spark1.6开始新引入的一个接口，它结合了RDDAPI的很多优点（包括强类型，支持lambda表达式等），以及SparkSQL的优点（优化后的执行引擎）。

不圆的石头·2021-05-02 14:30

Spark Sql 运行原理

SparkSQL原理和运行机制Catalyst执行优化器Catalyst是SparkSQL执行优化器的代号，所有SparkSQL语句最终都能通过它来解析、优化，最终生成可以执行的Java字节码。

jason__huang·2021-05-02 09:46

SparkSql学习一

1简介SparkSql可以从各种结构化数据源读取数据（JSONHiveParquet等）中读取数据。而且SparkSql还可以通过JDBC去读去数据。

kason_zhang·2021-05-01 12:51

让Spark成为你的瑞士军刀

很感慨Spark用好了，真的是大数据的瑞士军刀依托于SparkStreaming/SparkSQL，封装了一套通过配置和SQL就能完成批处理和流式处理的引擎，这样可以很好的完成复杂的ETL处理过程，实现了数据的流转和变换

祝威廉·2021-05-01 06:04

Spark的简单的自定义函数

packageSparksql02importjava.langimportorg.apache.spark.sql.expressions.

不愿透露姓名的李某某·2021-04-29 15:11

Spark学习_01_概述

Spark一、spark概述1.spark·spark是一种由Scala语言开发的快速、通用、可拓展的大数据分析引擎·sparkcore中提供了spark最基础与最核心的功能·sparkSQL是spark

?CaMKII·2021-04-23 19:28

推荐频道

sparkSQL

SQL on Hadoop 之查询效率分析

Spark--SparkCore面试知识点总结

Spark学习(1)-架构原理

SparkSQL执行update操作修改mysql数据

快乐大数据第10课 SparkSQL

2/2)SparkSQL – 从0到1认识Catalyst

sparkSQL中UDF的使用

Hudi 0.6.0 源码阅读（数据写入）

spark中DataFrame的使用方法

大量数据量下，很实用的共享变量

SparkSQL的shell命令

如何基于 Pulsar 和 Spark 进行批流一体的弹性数据处理？

SparkSQL数据源之Hive数据库

SparkSQL实战

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC

中文文档 pyspark.sql.DataFrame

通过扩展 Spark SQL ，打造自己的大数据分析引擎

[新星计划]通过扩展 Spark SQL ，打造自己的大数据分析引擎

Spark sql实现自定义函数

DataSkew —— 数据倾斜问题解析及解决方案实践总结小记

Spark Streaming入门

高级大数据研发工程师面试题总结

Hive 元数据表结构详解_豪猪的博客-CSDN博客_hive元数据表结构

org.apache.spark.sql.catalyst.catalog.ExternalCatalog as super class

2021年大数据基础（四）：大数据业务分析基本步骤

Spark基础知识

Spark job server使用调研

2021年大数据Spark（五十四）：扩展阅读 SparkSQL底层如何执行

Spark SQL，DataFrame以及 Datasets 编程指南 - For 2.0

22list『DT_Spark 』第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)

Antlr4 - 自定义SparkSQL解析

spark从入门到放弃三十七:Spark Sql(10)自定义sql函数

FLINK1.12.2 使用问题记录 （持续更新）

海量数据分流处理-------一致性哈希算法

Spark Sql源码详细分析

SparkSQL温习笔记-1

Spark Sql JDBC实现 聚合、union、同数据源Join等下推

Spark的那些事（一）

Structured Streaming概述

SparkSql 读取文件/读取hdfs文件

Antlr4 - 自定义SparkSQL解析

Spark SQL学习

SparkSQL常用操作

Kyuubi服务源码解析：KyuubiServer

Spark-DataSet学习

Spark Sql 运行原理

SparkSql学习一

让Spark成为你的瑞士军刀

Spark的简单的自定义函数

Spark学习_01_概述

FLINK1.12.2 使用问题记录（持续更新）

Spark Sql JDBC实现聚合、union、同数据源Join等下推