sparkSQL 第32页

RDD Join 性能调优

SparkCore和SparkSQL的基本类型都支持join操作。虽然join很常用而且功能很强大，但是

卓寿杰_SoulJoy·2020-09-15 23:20

通过一条SQL分析SparkSQL执行流程(二)

目录一、SparkSql执行步骤二、SparkSql执行步骤详细描述2.1）用户构建SparkSession,调用sql函数2.2）构建SessionState2.2.1）解析器2.2.2）Catalog2.2.3

北京小辉·2020-09-15 23:50

sparksql中timestamp相关函数

2019独角兽企业重金招聘Python工程师标准>>>from_timestamp(long):数字（秒）=>字符串（yyyy-MM-ddHH:mm:ss）unix_timestamp(String):字符串（yyyy-MM-ddHH:mm:ss）=>数字（秒）to_timstamp(String):字符串（yyyy-MM-ddHH:mm:ss）=>TimestampTypecast(longas

weixin_33785972·2020-09-15 18:14

SparkSQL与SparkCore出指标

scala：2.10.6pom.xml4.0.0job2JobNew1.0-SNAPSHOT-->org.apache-->spark-assembly-1.6.0-hadoop-2.6.0-->1.6.0-->-->log4jlog4j1.2.17mysqlmysql-connector-java5.1.31org.apache.sparkspark-graphx_2.101.6.0com.ty

weixin_30413739·2020-09-15 18:49

sparkcore, sparksql, sparkstreaming,sparkmlib

MapReduce(1)分布式计算框架,只能用Java进行开发。MapReduce–>Hive(1)由于MR只有Java程序员才能开发,但是程序员大部分都会sql,所以衍生出类sql语法HQL(HiveQueryLanguage).Hive其实是基于MR的一种分布式计算框架,在MR上包了一层壳,底层仍然是MR。MapReduce–>sparkcore(1)MR的shuffle过程中数据要频繁的落地

醉糊涂仙·2020-09-15 18:55

spark学习-SparkSQL-SparkSession与SparkContext

SparkSession-Spark的一个全新的切入点SparkSession是Spark2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的cont

九师兄·2020-09-15 17:37

Spark----SparkSQL之SparkSession

SparkSession是Spark-2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习Spark的各项功能。在Spark的早期版本中，SparkContext是Spark的主要切入点，由于RDD是主要的API，我们通过sparkContext来创建和操作RDD。对于每个其他的API，我们需要使用不同的context。例如：对于SparkStreaming，我们需要

XiaodunLP·2020-09-15 16:51

HiveQL迁移至Spark SQL入门示例（PySpark版）

查看报错的方式五、执行脚本时遇到【XXXnotfound】报错的处理方式（配置hive-site.xml）六、其他希望读者了解到的面向群体：为提高可维护性，需要快速将大量HiveQL脚本通过PySpark迁移到SparkSQL

蓝天之猪·2020-09-15 16:39

SparkSQL-与Spark Core整合案例

/***每日top3热点搜索词统计案例*@authorAdministrator**/publicclassDailyTop3Keyword{publicstaticvoidmain(String[]args){SparkConfconf=newSparkConf().setAppName("DailyTop3Keyword");JavaSparkContextsc=newJavaSparkCon

Anbang713·2020-09-15 16:47

PySpark之Spark SQL的使用《七》

一、SparkSQL简介SparkSQLisApacheSpark'smoduleforworkingwithstructureddata.SparkSQL是一个用于结构化数据处理的Spark模块。

爬虫研究僧·2020-09-15 16:02

SparkSQL编程之SparkSession新的起始点

在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。

qq_43193797·2020-09-15 16:11

spark-core 和spark-sql的区别

转自：http://www.cnblogs.com/zlslch/p/6685679.htmlSparkSQL构建在SparkCore之上，专门用来处理结构化数据(不仅仅是SQL)。

光圈1001·2020-09-15 16:39

SparkSql-数据源

常用加载/保存默认数据源是parquet，除非用spark.sql.sources.default配置参数定义为其他。valusersDF=spark.read.load("examples/src/main/resources/users.parquet")usersDF.select("name","favorite_color").write.save("namesAndFavColors.

.Mr Zhang·2020-09-15 16:42

Spark SQL 外部数据源

SparkSQL外部数据源1.概述外部数据源API方便快速从不同的数据源（json,parquet,rdbms)引入处理数据，经过混合处理，写回到指定文件系统上去。

wtzhm·2020-09-15 15:06

基于PySpark的航天日志分析(SQL分析)

文章目录1、导入PySpark包2、创建SparkSession实例对象3、读取数据（Schema()信息）读取数据方法1读取数据方法24、查看DataFrame数据信息（显示完整【列名】不省略）6、SparkSQL

SongpingWang·2020-09-15 15:36

sparkSQL之读取不同数据源的数据

objectDataSourceTest2{//读取不同的数据源defmain(args:Array[String]):Unit={valspark:SparkSession=SparkSession.builder().master("local[*]").appName("w").getOrCreate()valsc:SparkContext=spark.sparkContextsc.setL

古城的风cll·2020-09-15 15:05

Specified key was too long； max key length is 767 bytes。

问题：sparksql连接hive的元数据（mysql库）时报错：Specifiedkeywastoolong;maxkeylengthis767bytes。

kingloneye·2020-09-15 15:14

通过自定义SparkSQL外部数据源实现SparkSQL读取HBase

2019独角兽企业重金招聘Python工程师标准>>>包:sparksql.hbaseHBaseRelation.scalapackage sparksql.hbaseimport java.io.Serializableimport

weixin_34007020·2020-09-15 15:46

Spark SQL，如何将 DataFrame 转为 json 格式

用过SparkSQL应该知道，Sparkdataframe本身有提供一个api可以供我们将数据转成一个JsonArray，我们可以在spark-shell里头举个栗子来看一下。

weixin_33709609·2020-09-15 15:01

Spark 系列（八）SparkSQL和集成数据源-及简单优化方案----简化工作的利器！！

文章目录SparkSQL和集成数据源-及简单优化：SparkSQL优化器--CatalystOptimizer具体流程：SparkSQLAPI：具体优化流程：原流程：优化流程：DataSet与DataFrame

NICEDAYSS·2020-09-15 14:53

SparkSQL 外部数据源

http://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources

大米饭精灵·2020-09-15 14:49

SparkSQL读取Cassandra数据源

pom依赖com.datastax.sparkspark-cassandra-connector_2.112.0.0-M1org.apache.sparkspark-sql_2.112.1.1scala版importcom.datastax.spark.connector.CassandraRowimportcom.datastax.spark.connector.rdd.CassandraRDD

铁头乔·2020-09-15 14:11

Spark SQL读取外部数据源

SparkSQL读取外部数据源1、SparkSQL可以加载任何地方的数据，例如mysql，hive，hdfs，hbase等，而且支持很多种格式如json,parquet,avro,csv格式。

明天你好lk·2020-09-15 14:36

Spark(1)——Spark的安装

Spark简介支持多种开发语言：Scala，Java，Python,R涉及的领域SparkCore数据的离线分析->MapReduceSparkStreaming数据在在线分析->(实时处理)StromSparkSQL

lime_·2020-09-15 14:04

sparksql小文件生成过多，导致job之间任务出现大量空白时间

由于时间久远。该问题十分具有代表性。所以今天将其记录一下。本人使用的是华为C70集群，spark1.5.1的版本，由于版本问题。原先批处理一个小时的程序变慢一倍。达到2小时的处理时长。以jstack和jstat的方式大量观察，排除了gc和oom的问题。那么问题到底出在哪里?截图为内网。我无法拿出来。我用语言描述一下：即为可以从sparkUI界面观察得出。job界面中多个stage之间存在了很多空白

deepthinkers·2020-09-15 14:13

SparkSQL部署与简单使用

Øhadoop-2.6.0-cdh5.7.0ØScala：2.11.8Øspark-2.3.1-bin-2.6.0-cdh5.7.0（需要自己编译）Øhive-1.1.0-cdh5.7.0ØMySQL5.6二、SparkSQL

csdn3993023·2020-09-15 13:01

SparkSql 处理各种数据源

文章目录SparkSql的各种数据源1.JDBC2.csv3.Json4.parquet5.HiveSparkSql的各种数据源1.JDBC首先创建程序入口和jdbc连接：得到的是DataFrame类型数据

Icedzzz·2020-09-15 13:25

Spark | SparkSql Insert Overwrite 小文件过多

SparkSql在执行HiveInsertOverwriteTable操作时，默认文件生成数和表文件存储的个数有关，但一般上游表存储个数并非下游能控制的，这样的话得考虑处理小文件问题。

点滴笔记·2020-09-15 13:06

Spark Sql 小文件问题

https://github.com/Intel-bigdata/spark-adaptivehttp://spark.apache.org/docs/latest/configuration.html使用SparkSqlAPIs

RunTravis·2020-09-15 13:34

Spark系列--SparkSQL(六)数据源

前言SparkSQL的数据源：结构化的文件（json，parquet），或者是Hive的表，或者是外部的数据库（mysql），也或者是已经存在的RDD。

淡淡的倔强·2020-09-15 13:47

Apache Spark数据分析教程（二）：Spark SQL

本教程（第二部分）将对Spark生态系统中占有重要地位的SparkSQL和DataFrame进行介绍，给大家演示Spark

五柳-先生·2020-09-15 13:36

SparkSQL外部数据源

场景介绍：大数据MapReduce,Hive,Spark作业,首先需要加载数据,数据的存放源可能是HDFS、HBase、S3、OSSmongoDB;数据格式也可能为json、text、csv、parquet、jdbc..或者数据格式经过压缩，不同格式文件需要不同的解析方式,如果需要HDFS关联MySQL数据,可以通过sqoop进行一些列转换到，如果使用ExternalDataSourceAPI直接

csdn3993023·2020-09-15 13:44

Spark 2.4.0如何优雅地解决sparksql小文件过多的问题

在使用SparkSql进行项目开发的过程，往往会碰到一个比较头疼的问题，由于SparkSql的默认并行度是200，当sql中包含有join、groupby相关的shuffle操作时，会产生很多小文件；从集群优化的角度来说

拾荒路上的开拓者·2020-09-15 12:53

SparkSQL数据源

一、通用加载/保存方法1.1手动指定选项SparkSQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。

不稳定记忆·2020-09-15 12:52

Spark学习案例——SparkSQL结合Kudu实现广告业务分析

下方有数据可免费下载目录原始数据项目架构ETL处理业务一业务二业务三代码重构打包定时运行源码地址https://github.com/chengyanban/spark-project/tree/master/广告数据分析原始数据下载数据:请点击我.提取码：3bm9有两个文件，一个广告业务的data-test.json，一个ip.txt文件项目架构ETL处理data-test.json文件中每行有

程研板·2020-09-15 12:30

SparkSQL各种数据源相关操作

目录JSON文件文本文件parquet文件JSON转parquetMySQL文件Hive文件JSON文件defjson(spark:SparkSession):Unit={valjsonDF:DataFrame=spark.read.json("D:\\study\\workspace\\spark-sql-train\\data\\people.json")//jsonDF.show()json

程研板·2020-09-15 12:59

Spark-SQL连接MySql关系型数据库

本文主要分析SparkSQL官方文档中有关于JDBCToOtherDatabases部分，以MySQL数据库为例，结合数据读写操作的实例代码进行详细的分析。

weixin_30885111·2020-09-15 08:17

spark-sql读取嵌套json数据

SparkSql版本为2.2.0sparksql解析json格式的数据源首先，获取操作sparkSql的SparkSession操作实例：valsession=SparkSession.builder(

qq_43193797·2020-09-15 08:46

数据库数据仓库 NoSQL OLAP OLTP HTAP 预处理内存数据库流式计算 MPP架构 DAG架构列存储文档存储

数据库MySqlDruidPrestoKylinPostgreSQLTidbImpalaESSparkSQL

oqiuqian·2020-09-15 07:50

Spark SQL, DataFrames and Datasets Guide

https://spark.apache.org/docs/1.6.3/sql-programming-guide.html#sqlSparkSQL中所有功能的入口点是SQLContext类或其派生类。

天一涯·2020-09-15 06:46

SparkSQL简介

日期版本修订审批修订说明2016.10.201.0章鑫8初始版本1简介SparkSQL是Spark的一个组件，用于结构化数据的计算，SparkSQL提供了一个称为DataFrames的编程抽象，DataFrames

zx8167107·2020-09-15 03:17

sparkSQL---自定义函数（UDF，UDTF，UDAF）

自定义函数被称为（UDF）UDF分为三种：UDF：输入一行，返回一个结果；一对一；比如定义一个函数，功能是输入一个IP地址，返回一个对应的省份UDTF：输入一行，返回多行(hive)；一对多；sparkSQL

weixin_43866709·2020-09-15 03:36

Spark读取csv文件

String]):Unit={Logger.getLogger("org").setLevel(Level.WARN)valspark=SparkSession.builder().appName("SparkSql2

庐州小白·2020-09-15 03:52

Apache SparkSQL 概念

SparkSQL概念SparkSQL是Spark用来处理结构化数据的一个模块。SparkSQL还提供了多种使用方式，包括DataFramesAPI（SQL）和DatasetsAPI（HQL）。

大数据AIRDE·2020-09-15 03:51

Spark SQL概念学习系列之Spark SQL基本原理

SparkSQL基本原理1、SparkSQL模块划分2、SparkSQL架构--catalyst设计图3、SparkSQL运行架构4、Hive兼容性1、SparkSQL模块划分SparkSQL模块划分为

i_data·2020-09-15 03:11

SparkSQL注册自定义函数

SparkSql可以方便地使用sql来处理数据，实际中经常会大量使用。在处理复杂逻辑时，为了避免写出又长又难以理解的SQL，可以实现自定义函数，再将其注册后，供sql调用。

法相·2020-09-15 03:40

SparkSQL UDF两种注册方式：udf() 和 register()

调用sqlContext.udf.register()此时注册的方法只能在sql()中可见，对DataFrameAPI不可见用法：sqlContext.udf.register("makeDt",makeDT(_:String,_:String,_:String))示例：defmakeDT(date:String,time:String,tz:String)=s"$date$time$tz"sql

weixin_30296405·2020-09-15 03:31

Spark系列--SparkSQL(五)用户自定义函数

一、用户自定义UDF函数通过spark.udf功能用户可以自定义函数。scala>valdf=spark.read.json("/input/people.json")scala>spark.udf.register("addName",(x:String)=>"Name:"+x)res18:org.apache.spark.sql.expressions.UserDefinedFunction=

淡淡的倔强·2020-09-15 03:39

spark sql介绍

sparksql介绍Spark1.0版本开始，推出了SparkSQL。

大数据的未来·2020-09-15 03:22

SparkSQL是什么（概括）

SparkSQL-概括简介SparkSQL是Spark整体架构用来处理结构化数据的模块，SparkSQL的接口为Spark提供了有关数据结构和执行信息，在内部，SparkSQL使用这些额外的信息来优化应用程序

稳哥的哥·2020-09-15 03:31

推荐频道

sparkSQL