Spark-SQL 第4页

Apache Spark启动spark-sql报错

UnrecognizedHadoopmajorversionnumber4解决Thedir:/tmp/hiveonHDFSshouldbewritable问题参考资料一、问题出现版本：ApacheSpark2.4.0ApacheSpark3.0.0安装好spark后，执行spark-sql

终回首·2022-09-21 13:06

spark整合hive后spark-sql启动报错

通过spark-sql来访问hive的元数据，hive元数据信息存储在mysql但是启动的时候是报如下的错误，检查过配置,metastore已经配置，并且启动，用hive启动可以正常使用，但是spark-sql

yala说·2022-09-21 13:03

史上最简单的spark教程第十二章-SparkSQL编程Java案例实践(四)

Spark-SQL的Java实践案例(四)数据源:(读取与存储数据,JDBC服务器)史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/

李时珍皮啊·2022-09-09 09:56

2020.11.23(spark-sql、复杂SQL、函数、自定义函数)

写SQL的时候都会遇到一个东西，函数。尤其写SQL的时候有两类场景，OLTP和OLAP，OLTP的时候也会写函数，但是多数情况属于时间函数、日期函数、金额函数，OLTP就是平常CRUD的时候，对着数据库发起的快速的，返回结果的。OLAP趋向于分析型的，时间粒度，OLAP会比OLTP复杂度高一点，分析的时候会卡在对数据，不是简单的一个单元格的值的修正，可能要做很多分组的值的转换，关联的操作，OLTP

超可爱慕之·2022-08-22 23:36

基于spingboot通过spark-sql进行大批量插入clickhous分布式数据库

1.所需依赖org.apache.sparkspark-core_2.112.4.3org.apache.sparkspark-sql_2.112.4.3ru.yandex.clickhouseclickhouse-jdbc0.1.53>listdata=newArrayList>();Stringname="测试";Stringage="22";Stringadress="广东深圳";Strin

杨宇sss·2022-08-22 23:15

iceberg系列（1）：存储详解-初探1

/bin/spark-sql\--packagesorg.apache.iceberg:iceberg-spark3-runtime:0.12.1\--confspark.sql.extensions=

九剑问天·2022-07-13 08:11

解决Hive on Spark与Spark on Hive之间表数据不互通问题

解决HiveonSpark与SparkonHive之间表数据不互通问题问题描述通过Ambari2.7.5安装HDP3.1.5集群后，spark-sql和hive虽然已经实现了整合，无论在hive还是spark-sql

勇远有李·2022-07-11 13:07

漫谈大数据 - Spark on Hive & Hive on Spark

转成MapReduce执行速度慢HiveOnSpark优化Hive元数据库的功能Hive开启MetaStore服务Sparkonhive与HiveonSpark的区别SparkonhiveSpark通过Spark-SQL

昊昊该干饭了·2022-07-11 13:06

HIVE 生成过多小文件的问题

生成大量小文件小文件的危害为什么会生成多个小文件不同的数据加载方式生成文件的区别解决小文件过多的问题今天运维人员突然发来了告警，有一张表生成的小文件太多，很疑惑，然后排查记录了下HIVE的版本2.x，使用的引擎是MR；注意：HIVEONSPARK或SPARK-SQL

半吊子Kyle·2022-07-11 13:34

Spark-sql入门案例-wordcount

文章目录一描述二数据准备三环境准备四编码实现总结一描述对按照空格切分的文本文件中的内容进行解析，读取，按照单词进行统计，最后按照统计结果进行排序，保存到文件具体的步骤：初始化Spark-sql对象读取文件内容对一行的数据进行处理分组统计结果排序保存至文件二数据准备三环境准备新建

Master_slaves·2022-06-16 00:09

Spark-SQL常用内置日期时间函数

Spark-SQL常用内置日期时间函数一、获取当前时间1、current_date获取当前日期时间格式：yyyy-MM-ddspark.sql("selectcurrent_date").show(false

绿萝蔓蔓绕枝生·2022-04-24 14:38

Spark-Sql之DataFrame实战详解

在Spark-1.3新加的最重要的新特性之一DataFrame的引入，很类似在R语言中的DataFrame的操作，使得Spark-Sql更稳定高效。

kwu_ganymede·2022-04-22 08:11

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

说明：spark版本：2.2.0hive版本：1.2.1需求：有本地csv格式的一个文件，格式为${当天日期}visit.txt,例如20180707visit.txt，现在需要将其通过spark-sql

weixin_30892889·2022-02-27 14:33

springboot集成spark并使用spark-sql的示例详解

·2022-02-19 16:24

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2022-02-10 12:57

Spark-Sql常用API

学习一门开源技术一般有两种入门方法，一种是去看官网文档，比如GettingStarted-Spark3.2.0Documentation(apache.org)，另一种是去看官网的例子，也就是%SPARK_HOME%\examples下面的代码。打开IDEA，选择File-Open...跟前面文章中方法一样导入jars目录到classpath。Spark解析json字符串第一个例子是读取并解析Js

山不在高水不在深·2021-12-03 19:00

Spark-Sql入门程序示例详解

spark-sql是用来处理结构化数据的模块，是入门spark的首要模块。技术的学习无非就是去了解它的API，但是Spark有点难，因为它的例子和网上

·2021-12-03 13:42

Spark整合Hive

spark-sql写代码方式1、idea里面将代码编写好打包上传到集群中运行，上线使用spark-submit提交2、sparkshell(repl)里面使用sqlContext测试使用，简单任务使用spark-shell

糟糟张·2021-11-13 22:00

Spark 架构，计算

3、spark-sql:通过sql的方式操作spark作业。sql相关的学习、测试、生产环境研发均可以使用该直接操作交互方式。

JIE_ling8·2021-11-12 00:10

Spark基础与数仓应用调优

计算引擎的发展了解SparkSpark核心理念数据应用Spark-sqlSpark四大组件Spark-sql使用与优化Spark中的基本概念使用Spark-sql参数优化问题点本文主要是认识、了解Spark

别停下思考·2021-06-21 13:16

Spark-sql与hive整合运行在Yarn上，经典错误解决方案！

1.版本spark2.3.0hive1.2.12.错误现象jar通过spark-submit提交到yarn运行时报错如下：org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.thrift.TApplicationException:Invalidmethodname:'get_all_functions'atorg.apache.

文儿哥·2021-06-13 20:42

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-06-13 13:34

spark中DataFrame的使用方法

到目前为止，我感觉DataFrame的很多使用方法是跟pandas的DataFrame很像的；如果想看比较全面的操作，可以看这个文章，Spark-SQL之DataFrame操作大全-一片黑-博客园。

VChao·2021-06-10 19:05

SparkSQL的shell命令

driver-java-options"-Dspark.driver.port=4050"--confspark.sql.warehouse.dir=hdfs://ip:8020/user/hive/warehouse或者最简单的spark-sql

汤圆毛毛·2021-06-10 05:50

[喵咪大数据]Presto查询引擎

如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL

文振熙·2021-06-06 13:53

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-05-11 12:03

spark实时处理hdfs流数据

项目说明Spark构建一个实时数据处理及展示系统流数据数据处理：scala调用spark-SQL：python如图：Paste_Image.png问题总结1、spark-streaming流处理2、sbt

gk4030·2021-05-09 13:15

spark-sql_on_yarn.md

[TOC]spark-sql提交到yarn后只占用3个core，4480mimage.png修改参数

旺达丨·2021-05-03 18:53

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-05-02 23:59

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

kikiki2·2021-04-30 12:27

【Spark】SparkOptimizer 优化：OptimizeIn（In to InSet）

最近在调试Spark-SQL的时候看了一个OptimizeIn优化规则，该规则做了两个事情：去除In中重复的Literal条件；如果In中Literal条件数目大于optimizerInSetConversionThreshold

PowerMe·2021-04-29 03:30

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-04-25 08:51

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。##使用方法csv```spark.sql("select*fromcsv.

kikiki4·2021-04-22 21:26

大数据-序篇

，从基础再次着手，开始巩固定学习.java很核心，但个人一般，javaweb每一段都能自主开发，但不核心scala,python都可以玩，但不够精通大数据中，hive,spark-streaming,spark-sql

太菜了-Andy·2021-04-02 18:51

spark数据查询语句select_Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连接到

weixin_39888082·2020-12-21 13:55

大数据——Spark-SQL自定义函数UDF、UDAF、UDTF

Spark-SQL自定义函数UDF、UDAF、UDTF自定义函数分类UDFUDAFUDTF自定义函数分类类似有Hive当中的自定义函数，Spark同样可以使用自定义的函数来实现新的功能Spark中的自定义函数有三类

蜂蜜柚子加苦茶·2020-11-17 19:56

如何创建 SparkContext，SQLContext，StreamingContext 的几种方式？

需要用到spark-core，spark-sql，spark-streaming的jar包，pom文件如下：2.1.02.11org.apache.sparkspark-core_${scala.version

曲健磊·2020-09-15 16:01

spark-core 和spark-sql的区别

转自：http://www.cnblogs.com/zlslch/p/6685679.htmlSparkSQL构建在SparkCore之上，专门用来处理结构化数据(不仅仅是SQL)。即SparkSQL是SparkCore封装而来的！SparkSQL在SparkCore的基础上针对结构化数据处理进行很多优化和改进，简单来讲：SparkSQL支持很多种结构化数据源，可以让你跳过复杂的读取过程，轻松从各

光圈1001·2020-09-15 16:39

SPARK-SQL 读取外部数据源 txt文件的读写

小哇666·2020-09-15 14:44

spark-sql执行报错No suitable driver found for jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=

未指定--driver-class-path正确指令：spark-sqllocal[2]--jars~/software/mysql-connector-java-5.1.27-bin.jar--driver-class-path~/software/mysql-connector-java-5.1.27-bin.jar

wzng·2020-09-15 14:19

Spark-SQL连接MySql关系型数据库

本文主要分析SparkSQL官方文档中有关于JDBCToOtherDatabases部分，以MySQL数据库为例，结合数据读写操作的实例代码进行详细的分析。本文中的代码需要使用到MysqlJDBC连接jar包。一、从mysql读取数据1、单表查询完整程序如下：packagecom.ckm.spark.sqlimportjava.util.Propertiesimportorg.apache.spa

weixin_30885111·2020-09-15 08:17

spark-sql读取嵌套json数据

SparkSql版本为2.2.0sparksql解析json格式的数据源首先，获取操作sparkSql的SparkSession操作实例：valsession=SparkSession.builder().master(“local[*]”).appName(this.getClass.getSimpleName).getOrCreate()//导入隐式转换和functionsimportsess

qq_43193797·2020-09-15 08:46

spark部署：在YARN上运行Spark

奔跑的小象·2020-09-15 03:21

spark-sql(不包含hive-sql)查询编程

spark-sql(不包含hive-sql)查询编程//1：将json格式的数据转化为dataFramevaldf=sqlContext.read.json("hdfs://localhost:9000

jacksoom·2020-09-15 02:38

Spark-sql 连接hive中遇到的问题

在使用spark-sql的时候发现，可以连接上hive并可以使用showtables的语句查询到表，但是后来尝试发现没法做其他更多的操作，通过log信息发现，是metadata无法连接的问题，联想到前天在配置

nuobuye19950728·2020-09-15 02:28

spark-sql使用hive的自定函数配置

1、spark-sql可以直接使用hive的自定义函数，而不需要重新写一套spark-sql的自定义函数，这里较大家一个简单的配置方式即可2、将hive的自定义函数jar拷贝到/usr/lib/spark-current

明喆_sama·2020-09-15 02:59

##公司合作项目--基于质差指标筛选结果的 spark-sql 查询系统Demo

一系统简介数据简介系统功能二处理流程数据处理spark-sql使用流程一.系统简介1.数据简介：本Demo系统所用数据是某省某运营商IPTV用户数据，基于此数据，经过一系列的数据清洗与数学建模，最终得到了三个质差用户指标

just-天之蓝·2020-09-14 13:03

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

首先集群已经可以通过spark-sql读取hive的数据，然后进行如下配置。

levy_cui·2020-09-14 10:22

spark-sql on hve配置文件

hive-site.xmlhive.insert.into.multilevel.dirstrue允许生成多级目录hive.exec.stagingdirhdfs://mini:9000/hive_tmp/cachespark-sql任务临时文件暂放目录javax.jdo.option.ConnectionURLjdbc:mysql://mini:3306/hive?createDatabaseI

蜗牛.~·2020-09-14 05:22

spark-sql 分区小文件合并

spark-sql执行任务小文件生成规则示例数据元数据:{数据库名称:mydb,表名称:t30,字段列表:aint,bintcint}主数据:[1,4,2;3,4,6;4,6,7]1.使用spark-sql

蜗牛.~·2020-09-14 05:21

推荐频道

Spark-SQL

Apache Spark启动spark-sql报错

spark整合hive后spark-sql启动报错

史上最简单的spark教程第十二章-SparkSQL编程Java案例实践(四)

2020.11.23(spark-sql、复杂SQL、函数、自定义函数)

基于spingboot通过spark-sql进行大批量插入clickhous分布式数据库

iceberg系列（1）：存储详解-初探1

解决Hive on Spark与Spark on Hive之间表数据不互通问题

漫谈大数据 - Spark on Hive & Hive on Spark

HIVE 生成过多小文件的问题

Spark-sql入门案例-wordcount

Spark-SQL常用内置日期时间函数

Spark-Sql之DataFrame实战详解

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

springboot集成spark并使用spark-sql的示例详解

Spark - SQL查询文件数据

Spark-Sql常用API

Spark-Sql入门程序示例详解

Spark整合Hive

Spark 架构，计算

Spark基础与数仓应用调优

Spark-sql与hive整合运行在Yarn上，经典错误解决方案！

Spark - SQL查询文件数据

spark中DataFrame的使用方法

SparkSQL的shell命令

[喵咪大数据]Presto查询引擎

Spark - SQL查询文件数据

spark实时处理hdfs流数据

spark-sql_on_yarn.md

Spark - SQL查询文件数据

Spark - SQL查询文件数据

【Spark】SparkOptimizer 优化：OptimizeIn（In to InSet）

Spark - SQL查询文件数据

Spark - SQL查询文件数据

大数据-序篇

spark数据查询语句select_Spark-SQL之DataFrame操作大全

大数据——Spark-SQL自定义函数UDF、UDAF、UDTF

如何创建 SparkContext，SQLContext，StreamingContext 的几种方式？

spark-core 和spark-sql的区别

SPARK-SQL 读取外部数据源 txt文件的读写

spark-sql执行报错No suitable driver found for jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=

Spark-SQL连接MySql关系型数据库

spark-sql读取嵌套json数据

spark部署：在YARN上运行Spark

spark-sql(不包含hive-sql)查询编程

Spark-sql 连接hive中遇到的问题

spark-sql使用hive的自定函数配置

##公司合作项目--基于质差指标筛选结果的 spark-sql 查询系统Demo

通过Spark访问Hbase的Hive外部表（hive on hbase的表）

spark-sql on hve配置文件

spark-sql 分区小文件合并