sparkSQL 第24页

Spark SQL与Hive on Spark的比较

简要介绍了SparkSQL与HiveonSpark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。

weixin_42073629·2022-11-01 10:14

Hive运行报空指针异常--Hive与SparkSQL的小差异

在一次执行代码的过程中，SparkSQL执行正常的代码，放到Hive中执行直接抛出空指针异常。查询了一些网上资料，大部分都是回答分区表没有分区，union时候数据类型不一致。

muzichichi·2022-11-01 10:14

关于SparkSQL那些事(二)----sparksql基础语法(下)

在上一篇博客中，重点介绍了如何通过sparksql来执行查询操作，虽然可以实现对创建的DateFrame进行操作，但是语法和普通的关系型数据库的SQL操作存在差异。

VogtZhao·2022-11-01 10:13

spark SQL语法与 DSL语法

文章目录sparkSQL语法与DSL语法sparksql与hive集成SQL与DSL的转换SQL语法DataFrame创建DataFrameDSL语法DSL语法与sql差异RDD与DataFrame互相转换

CODE20220318·2022-11-01 10:13

Hive与SparkSQL语法差异

一、相同函数差异1、Spark运行时用到的hash函数，与Hive的哈希算法不同，如果使用hash()，结果和Hive的hash()会有差异2、Hive和SparkSQL使用groupingsets生成的

书忆江南·2022-11-01 10:43

spark_sql 参数调优

sparkSql参数调优目录前言异常调优spark.sql.hive.convertMetastoreParquetspark.sql.files.ignoreMissingFiles&&spark.sql.files.ignoreCorruptFilesspark.sql.hive.verifyPartitionPathspark.files.ignoreCorruptFiles

weixin_43363407·2022-10-30 19:19

hive 读取sparksql的orc文件报ArrayIndexOutOfBoundsException：6

报错日志如下可以看出报错的地方再OrcFile的WriterVersion的from方法，定位代码发生在下面代码的values[val]代码段。values的值从代码可以看出values的数据应该为5，见下图代码而传过来的val是6，向上看代码，version来源是文件的meta，应该是spark版本的原因导致hive不支持的version。解决修改OrcFile文件的WriterVersion的

wang972779876·2022-10-30 19:48

spark sql读取hive底层_原创-spark sql 写入hive较慢优化思路

在《sparksql写入hive较慢原因分析》中已经分析了sparksql写入hive分区文件慢的原因，笔者提供几种优化思路供参考：(1)spark直接生成hive库表底层分区文件，然后再使用addpartion

TLOTF·2022-10-30 19:48

spark sql读取hive底层_Spark-SQL读不到Hive数据库的新坑指北

背景本文讲的是spark-sql这个命令行工具读取hive数据的情况：Spark是2.3.1，HDP发行版Hive是3.1.0，HDPSparkSQL和Hive3的交互问题，用Sparksql读取处理hive

唯伟老师·2022-10-30 19:48

spark sql读取不到orc格式hive表数据问题

1、问题在做spark数据对账时，对于部分orc格式的hive表，会有sparksql读取表数据为空的情况排查过程中发现是因为使用了tez作为hive的执行引擎，然后执行insertselectunionall

Java小田·2022-10-30 19:16

Spark3.0 Sql 使用HiveTableScanExec 读取Hive orc表源码分析及参数调优

Spark3.0Sql使用HiveTableScanExec读取Hiveorc表源码分析及参数调优1环境准备1.1示例代码importorg.apache.spark.sql.SparkSessionobjectSparkSqlHive

fir_dameng·2022-10-30 19:15

SparkSQL on K8s 在网易传媒的落地实践

网易传媒在2021年成功将SparkSQL部署到了K8s集群，并实现与部分在线业务的混合部署，到目前已经稳定运行了一年多。

·2022-10-18 11:18

Spark调优 | 一文搞定 Join 优化

SparkSQL总体流程在阐述Join实现之前，我们首先简单介绍SparkSQL的总体流程，一般地，我们有两种方式使用SparkSQL，一种是直接写sql语句，这个需要有元数据库支持，例如Hive等，另一种是通过

zhisheng_blog·2022-10-12 19:23

SparkSQL项目

YARN产生背景MapReduce1.X的问题：JobTracker的压力太大了；YARN的产生YARN的架构1个RM（ResourceManager）+N个（NodeManager）ResourceManager的职责：一个集群的active状态的RM只有一个，负责整个集群的资源管理和调度；1.处理客户端的请求（启动/杀死）任务；2.启动/监控ApplicationMaster（一个作业对应一个

syc0616·2022-10-07 21:16

（4）SparkSQL中如何定义UDF和使用UDF

SparkSQL中用户自定义函数，用法和SparkSQL中的内置函数类似；是saprkSQL中内置函数无法满足要求，用户根据业务需求自定义的函数。

·2022-09-26 11:16

1.Spark 基础解析之概述及集群安装

spark.apache.orgSpark是一种快速、通用、可扩展的大数据分析引擎，2014年2月成为Apache顶级项目，由Scala语言编写目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL

harveybd·2022-09-24 00:46

hive on spark 配置和 spark on hive

SparkonHive:Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，Spark负责采用RDD执行。HiveonSpark配置1）兼容性说明注意：官网下载

GOD_WAR·2022-09-21 13:10

大数据系列 | SparkSQL&HiveSQL报错解决方法

windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因：查阅资料后发现sparksql

woshinsy·2022-09-21 13:09

Hive on Spark配置

SparkonHive:Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，Spark负责采用RDD执行。2.HiveonSpark配置1）兼容性说明注意：

曾牛·2022-09-21 13:35

spark

它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的SparkSQL，用于机器学习的MLlib，用于图计算的GraphX和Spar

李洪良_948d·2022-09-20 00:03

史上最简单的spark教程第十二章-SparkSQL编程Java案例实践(四)

Spark-SQL的Java实践案例(四)数据源:(读取与存储数据,JDBC服务器)史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者:张耀峰结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)(文章参考:Elasticsearch权威指南,Spark快速大数

李时珍皮啊·2022-09-09 09:56

【SparkSQL笔记】SparkSQL的Dataset操作大全（二）

SparkSQL的Dataset/DataFrame操作大全简介说明1.Spark程序中利用SparkSession对象提供的读取相关数据源的方法读取来自不同数据源的结构化数据，转化为Dataset（DataFrame

sdut菜鸟·2022-09-09 09:25

SparkSQL 存储优化

问题一：为什么说列式存储优化在sparksql场景中是非常重要？到底是优化CPU还是IO?

令狐兄D·2022-09-09 09:54

SparkSql 字节码生成技术

[size=large]以具体的SQL语句selecta+bfromtable为例进行说明，下面是它的解析过程：[/size][size=large][b]1.调用虚函数Add.eval(),需确认Add两边数据类型2.调用虚函数a.eval()，需要确认a的数据类型3.确认a的数据类型是int，装箱4.调用虚函数b.eval(),需确认b的数据类型5.确认b的数据类型是int，装箱6.调用int

bbb5b555·2022-09-09 09:23

SparkSQL 总结（未完待续）

SparkSQL一.概述1.1HiveandSparkSQL1.2SparkSQL特点1.3DataFrame是什么？1.4DataSet是什么？

斯沃福德·2022-09-09 09:22

SparkSql寻医问药问答分析第二次分析

1.爬虫和数据导入miaofu@master:~/healthQA$ls-l-h总用量3.7G-rw-r--r--1miaofumiaofu80M9月2413:222016-05-01content.txt-rw-r--r--1miaofumiaofu90M9月2413:222016-05-02content.txt-rw-r--r--1miaofumiaofu82M9月2413:222016-0

Richard_More·2022-09-09 09:22

金三银四——大数据/Java面试集锦

下列文章链接请阅读：《金三银四——面试集锦》高级大数据研发工程师面试题总结海量大数据处理面试题和思路总结大数据之数据仓库面试题一文概览数据仓库知识和面试数仓相关面试题经典的SparkSQL/Hive-SQL

大数据学习与分享·2022-09-08 10:35

大白话描述SQL面试的知识点

一、SQL(结构化查询语言)SQL的分类：基本需要了解的：MySQL(99SQL)、HQL(HiveSQL)、SparkSQL、ImpalaSQL、OracleSQL的应用：MySQL数据库用于存放元数据较多

来自偶然的尘土·2022-09-06 09:51

Spark SQL执行多次join后越来越慢，最后出现OOM

目录背景项目简介出现的问题分析解决参考背景项目简介Spark2.4.8版本，主要使用SparkSQL的功能。简单的来说，就是使用sparkSession.sql(sql)来实现的。

94甘蓝·2022-09-06 08:47

解决Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.1.0:compile (default) on project sp

maven打包时出现了这个错误：Failedtoexecutegoalnet.alchim31.maven:scala-maven-plugin:3.1.0:compile(default)onprojectsparksql-train

Tai_Park·2022-09-05 12:54

SparkSQL 中 RDD、DataFrame、DataSet 三者的区别与联系

一、RDD【优点:】编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据【缺点:】序列化和反序列化的性能开销无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化。GC的性能开销，频繁的创建和销毁对象,势必会增加GC二、DataFrameDataFrame引入了schema和off-heapschema:RDD每一行的数据,结构都是一样的，这

万里长江横渡·2022-09-01 12:46

RDD、DataFrame、DataSet 三者的关系

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？

万里长江横渡·2022-09-01 12:15

（1）sparkstreaming结合sparksql读取socket实时数据流

SparkStreaming是构建在SparkCore的RDD基础之上的，与此同时SparkStreaming引入了一个新的概念：DStream（DiscretizedStream，离散化数据流)，表示连续不断的数据流。DStream抽象是SparkStreaming的流处理模型，在内部实现上，SparkStreaming会对输入数据按照时间间隔（如1秒）分段，每一段数据转换为Spark中的RDD

·2022-08-31 13:46

python像sql一样处理数据_【Python实战】Pandas：让你像写SQL一样做数据分析（一）...

Pandas把结构化数据分为了三类：Series，1维序列，可视作为没有column名的、只有一个column的DataFrame；DataFrame，同SparkSQL中的DataFrame一样，其概念来自于

weixin_39576127·2022-08-26 07:30

Spark详解（十四）：Spark SQL的Join实现

如今SparkSQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spa

哥伦布112·2022-08-22 23:24

Spark SQL相关API操作实例 spark研习第五季

三、SparkSQL的操作实例1.SparkSQL数据加载和保存SparkSQL重要是操作DataFrame，DataFrame本身提供了save和load的操作，Load：可以创建DataFrame，

简约AI·2022-08-22 23:18

Spark SQL and DataFrames

SparkSQLandDataFramesSparkSQLSparkSQL概述什么是SparkSQL？

brz_em·2022-08-22 23:13

spark-jion优化

SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于Join，常见的3种实现。

九指码农·2022-08-22 23:11

spark-spark-SparkSQL的3种Join实现(转)

SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在Sp

hjw199089·2022-08-22 23:01

MongoDB + Spark: 完整的大数据解决方案

通用性：我们可以使用SparkSQL来执行常规分析，SparkStreaming来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持

无精疯·2022-08-22 23:54

学习spark sql执行计划（一）

后续将持续更新SparkSQL架构SparkSQL的整体架构如下图所示从上图可见，无论是直接使用SQL语句还是使用DataFrame

purisuit_knowledge·2022-08-19 22:44

Spark Scala版本 | 选择题汇总

89个题)第1章大数据技术概述(10个题)第2章Scala语言基础(20个题)第3章Spark的设计与运行原理(10个题)第4章Spark环境搭建和使用方法(10个题)第5章RDD编程(10个题)第6章SparkSQL

程序喵尤Ni·2022-08-19 14:15

SparkSql

一、Shark1、简介Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎2、优点：1）由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用2）Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以直接进行迁移至Shark上Sh

zhangronglin1·2022-08-18 20:23

Spark SQL的自定义函数UDF

SparkSQL的自定义函数UDF1.背景在SQL使用时，会有内置函数，但如果业务比较复杂，但又希望可以有更加灵活的函数使用和复用，则需要自定义UDF，就是userdefinedfunction，可以分为

闻香识代码·2022-08-18 20:23

SPark学习笔记：11 SparkSQL 的用户自定义函数UDF、UDAF、UDTF

文章目录UDF用户自定义函数(一对一)说明使用实现方式完整示例UDAF用户自定义聚合函数(多对一)说明使用实现方式UDTF用户自定义表函数(一对多)说明：实现UDF用户自定义函数(一对一)说明UDF输入一条记录，输出一条记录，一对一的关系，有点类似于map算子，是一对一的关系使用UDF的使用有两种方式，一种方式是在SQL中使用，另一种方式是在DSL方式使用使用SQL的方式valmyconcat3=

wangzhongyudie·2022-08-18 20:21

SparkSQL中自定义聚合(UDAF)函数

用户自定义函数类别分为以下三种：1).UDF：输入一行，返回一个结果(一对一)，在上篇案例使用SparkSQL实现根据ip地址计算归属地二中实现的自定义函数就是UDF，输入一个十进制的ip地址，返回一个省份

灵佑666·2022-08-18 20:50

SparkSQL 用户自定义函数

SparkSQL允许用户可以通过spark.udf功能添加自定义函数，实现自定义功能。

落花雨时·2022-08-18 20:20

JavaSpark | SparkSQL | 创建DataSet | UDF与UDAF | 开窗函数

文章目录一、SparkSQL1.SparkSQL介绍2.Dataset与DataFrame概念解析3.SparkSQL的数据源4.SparkSQL底层架构5.谓词下推（predicatePushdown

跟乌龟赛跑·2022-08-18 20:18

PySpark | SparkSQL入门 | DataFrame入门

文章目录一、快速入门1.什么是SparkSQL2.为什么要学习SparkSQL3.SparkSQL特点二、SparkSQL概述1.SparkSQL和Hive的异同2.SparkSQL的数据抽象3.DataFrame

跟乌龟赛跑·2022-08-18 20:47

推荐频道

sparkSQL