sparkSQL 第65页

SparkSQL实现行转列与列转行

例如目前有一张表dlzz:TG_ID表示变压器台区ID，DATA_DATE表示时间，I1、I2和I3分别表示三个不同时间点的电流值SparkSQL实现列转行valframe:DataFrame=spark.read.format

我在北国不背锅·2019-09-18 11:20

SparkSQL性能优化

一、代码层面的优化使用高性能算子使用reduceByKey/aggregateByKey替代groupByKey。使用mapPartitions替代普通map。mapPartitions类的算子，一次函数调用会处理一个partition所有的数据，而不是一次函数调用处理一条，性能相对来说会高一些。但是有的时候，使用mapPartitions会出现OOM（内存溢出）的问题。因为单次函数调用就要处理掉

我在北国不背锅·2019-09-17 17:22

Spark SQL读取Oracle的number类型的数据时精度丢失问题

SparkSQL读取Oracle的number类型的数据时精度丢失问题在程序开发中,使用到了sparkSQL读取Oracle数据库,发现当sparkSQL读取Oracle的number类型字段时,数据的小数经度会出现了丢失的情况

我在北国不背锅·2019-09-17 16:21

SparkSQL读取/写入MySQL/Oracle数据(分区并行读取)

**SparkSQL读取MySQL数据**一、sparkSQL读取MySQL数据1、第一种方式defmain(args:Array[String]):Unit={//获取sparkSessionvalsparkSession

我在北国不背锅·2019-09-17 14:57

记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程

一、问题现象：使用sparksql调用get_json_object函数后，报如下错误：yarn容器被kill，导致任务失败，查看日志：ContainerkilledbyYARNforexceedingmemorylimits

微步229·2019-09-16 10:55

TiDB 数据库的四大应用场景分析

TiDB是一套开源分布式HTAP（HybridTransactional/AnalyticalProcessing数据库，同时提供MySQL与SparkSQL接口。

Alwaysdazz·2019-09-14 11:46

Spark SQL操作之-函数汇总篇-下

SparkSQL操作之-自定义函数篇-下环境说明自定义函数分类用户自定义函数(UDF)用户自定义聚合函数(UDAF)环境说明1.JDK1.82.Spark2.1自定义函数分类不同的业务需要不同的处理函数

野男孩·2019-09-12 22:05

sparkSQL 连接Oracle

sparkSQL连接oracle#-*-coding:utf-8-*-frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimport

银灯玉箫·2019-09-10 15:06

Spark学习笔记0——简单了解和技术架构

目录Spark学习笔记0——简单了解和技术架构什么是Spark技术架构和软件栈SparkCoreSparkSQLSparkStreamingMLlibGraphX集群管理器受众起源和发展Spark学习笔记

隔壁老李头·2019-09-10 12:00

SparkSQL读取MySQL数据tinyint字段转换成boolean类型的解决方案

最近在做弄sparksql,在读取mysql数据的时候发现一个问题,在数据库将字段定义成tinyint,并且长度为1的时候,读取到spark里面,被转换成Boolean类型的字段了.测试表定义CREATETABLE

a904364908·2019-09-08 14:48

Migrate from Oracle to Spark SQL

OracletoSparkSQL需要转换之处decode转为casewhenconditionthenresult_1elseresult_2end写法decode是一个字符串函数：decode(binarybin

daoxu_hjl·2019-09-04 00:00

structured streaming 介绍

structuredstreaming模型思想StructuredStreaming模型是把数据流当作一个没有边界的数据表来对待，这样开发人员可以在流上使用SparkSQL进行流处理，可以使用离线spark

shinwing·2019-08-29 18:16

大数据 SQL Boy 脱坑指南

大数据行业跟SQL更是有不解之缘，可谓“万物皆可SQL化”，从Hive/SparkSQL等最原始的最普及的SQL查询引擎，到Impal

aydnwba6940·2019-08-28 10:00

Spark与Hive集成

2.第二步集成根据hive的配置参数hive.metastore.uris的情况，采用不同的集成方式分别：1.hive.metastore.uris没有给定配置值，为空(默认情况)SparkSQL通过hive

chenxk·2019-08-27 10:35

Sssssss_A·2019-08-26 20:59

电商大数据应用之用户画像

一、课程目标1.1了解用户画像是什么1.2用户画像的作用是什么1.3学会使用SparkSQL构建用户画像二、前言大数据时代已经到来，企业迫切希望从已经积累的数据中分析出有价值的东西，而用户行为的分析尤为重要

qq5d3e5bae55f08·2019-08-26 14:43

Spark SQL overwrite问题

背景今天发现hive中有张表，每天会有定时插入操作，但是会有比较多的重复数据，于是想着每天再插入的时候清理一下，用的SparkSQL。

lvwenyuan_1·2019-08-21 16:15

Scala基于MySQL元数据管理项目实战

项目概述：SpringBoot+SpringDataJPA+Scala+Java（混编）（有些java工具类需要调用）项目需求：统一元数据管理(metastore)在大数据平台的重要性（SparkSQL

SkinnyTracy·2019-08-16 00:00

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql

sparkstreaming拉取kafka数据，结合sparkSqldataframehive存储计算，输出到mysql.数据清洗过程比较复杂，没办法，上游给的屡一样的数据，正则去解析并全量按时间取最新一条去重

java的爪哇·2019-08-15 17:29

大数据学习笔记之Spark（三）：SparkSQL应用解析

文章目录第1章SparkSQL概述1.1什么是SparkSQL1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2Dataframe1.2.3Dataset1.2.4三者的共性

Leesin Dong·2019-08-15 08:46

大数据技术及算法学习清单

基础数据结构与算法极客时间专栏：数据结构与算法之美https://time.geekbang.org/col...leetcode刷题：https://leetcode-cn.com/大数据技术离线计算hivesqlsparksql

dataliu·2019-08-15 00:00

Spark排序方式集锦

一.简介spark中的排序一般可以使用orderBy或sort算子，可以结合负号、ASC/DESC和col进行简单排序、二次排序等情况二.代码实现1packagebig.data.analyse.sparksql23importorg.apache.log4j

云山之巅·2019-08-14 19:00

好程序员大数据学习路线分享SparkSQl

好程序员大数据学习路线分享SparkSQl，SparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

好程序员IT·2019-08-14 17:51

spark笔记之Spark SQL

1．SparkSQL概述1.1．SparkSQL的前世今生Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。

qq5d3e5bae55f08·2019-08-14 09:22

Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations

一、简单聚合1.1数据准备//需要导入sparksql内置的函数包importorg.apache.spark.sql.functions.

黑白影·2019-08-14 09:00

Streaming+Sparksql使用sql实时分析 rabbitmq+mongodb+hive

SparkConfsparkConf=newSparkConf()//此处使用一个链接切记使用一个链接否则汇报有多个sparkcontext错误.setAppName("SparkConsumerRabbit").setMaster("local[2]").set("hive.metastore.uris",thrift).set("spark.sql.warehouse.dir",hdfs).s

一颗小白菜灬·2019-08-13 10:00

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、SparkSQL简介SparkSQL是Spark中的一个子模块，主要用于操作结构化数据。

黑白影·2019-08-12 07:00

Flink+Druid构建实时OLAP的探索

方案实时入库SQL支持度Spark+CarbonData支持SparkSQL语法丰富Kylin不支持支持joinFlink+Druid支持0.15以前

ChouYarn·2019-08-09 18:00

spark开窗函数

bigdata.beiwang.cn/laolihttp://bigdata.beiwang.cn/haiyuanhttp://bigdata.beiwang.cn/haiyuan实现代码：objectSparkSqlDemo11

山水一程，三生有幸。·2019-08-09 17:00

Spark SQL中出现 CROSS JOIN 问题解决

SparkSQL中出现CROSSJOIN问题解决1、问题显示如下所示：UsetheCROSSJOINsyntaxtoallowcartesianproductsbetweentheserelation2

鸿燕藏锋·2019-08-09 12:39

Spark项目实战学习电商项目

该项目源码中是用Java开发的，分析计算多用的是sparkcore，我在实践这个项目的时候，spark2.x已有了，性能应该比1有提升，所以关于spark部分我基本用的都是SparkSql，并且用scala

maozicb·2019-08-09 08:32

SparkSQL in中使用子查询耗时高如何优化

目录一、背景二、用join替代in三、用join替换in且map端Join四、用Join替换in的坑一、背景经常遇到MySQL表太大，频繁查询影响性能，需要把MySQL数据同步到hive（通过解析MySQLbinlog同步数据到hive），MySQL表一般会有create_time和update_time字段，如何同步到hive方便查询呢？我们采用的方式是按天快照，更新历史。模拟SQL如下：在sp

aijiudu·2019-08-08 13:50

SparkSQL中SQL风格和DSL风格的使用

准备工作读取文件并转换为DataFrame或DataSetvallineRDD=sc.textFile("hdfs://node-01:9000/person.txt").map(_.split(""))caseclassPerson(id:Int,name:String,age:Int)valpersonRDD=lineRDD.map(x=>Person(x(0).toInt,x(1),x(2)

MannerXu·2019-08-07 22:13

Spark-SQL-Java编程

原理：将SparkSQL转化为RDD，然后提交到集群执行。SparkSession：统一的切入点，实质上是SQLContext和HiveContext的组合。

dlphay·2019-08-07 17:49

分布式计算系统三巨头--Hadoop、Storm、Spark的区别和比较

Spark包括sparkcore，sparksql,sparkstreaming，sparkcore可以用来

暁洣·2019-08-07 11:03

Spark计算引擎之SparkSQL详解

一、SparkSQL二、SparkSQL1．SparkSQL概述1.1．SparkSQL的前世今生Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。

林夕1740·2019-08-06 16:48

Hadoop YARN：调度性能优化实践

离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行SparkStreaming，Flink为主的实时流计算作业。

美团技术团队·2019-08-05 10:55

Hadoop YARN：调度性能优化实践

离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行SparkStreaming，Flink为主的实时流计算作业。

美团技术团队·2019-08-05 00:00

大数据测试：sparkSQL取MySQL数据库中的数据

#coding:utf-8frompyspark.sqlimportSparkSessionfrompyspark.sql.typesimport*importosif__name__=='__main__':os.environ['JAVA_HOME']='C:\ProgramFiles\Java\jdk1.8.0_211'print(os.path)spark=SparkSession\.bu

pingsha_luoyan·2019-08-02 15:00

大数据入门之分布式计算框架Spark(2) -- Spark SQL

1.SparkSQL概述一个运行在Spark上执行sql的处理框架，可以用来处理结构化的数据【外部数据源（访问hive、json、parquet等文件的数据）】。

Kiku_xq·2019-08-01 18:24

7. Spark SQL的运行原理

7.1SparkSQL运行架构SparkSQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。

铖歌·2019-08-01 17:00

Apache Spark渐进式学习教程(六): SparkSQL简介及入门

目录一、简介1、SparkSQL的由来2、SparkSql特点二、SparkSQL入门1、创建DataFrame对象2、由外部文件构造DataFrame对象一、简介Spark为结构化数据处理引入了一个称为

JDZW2010·2019-08-01 15:34

大数据入门之分布式计算框架Spark(1) -- Spark初次见面

效率高：因为是基于内存的，所以在数据处理过程中，数据不会落地，而是存入内存中，效率较MR更高易用：提供了很多算子，简化开发流程通用性：Spark之上，还有SparkSQL、SparkStreaming、

Kiku_xq·2019-08-01 11:59

Spark常见问题汇总

整理工作中遇见的Spark问题，希望能给大家在使用Spark或者运维Spark如果遇到类似的问题可以参考进行解决一.SparkSQL相关在执行insert语句时报错，堆栈信息为：FileSystemclosed

伊豚·2019-07-31 18:42

spark程序打包为jar包，并且导出所有第三方依赖的jar包

spark读取kudu表导出数据为parquet文件（sparkkuduparquet）kudu导入/导出数据Kudu分页查询的两种方式map、flatMap(流的扁平化)、split的区别Spark(SparkSql

日萌社·2019-07-31 12:47

PySpark 读写 MySQL

SparkSQL有着强大的与其他存储介质交互的功能，其中就包括MySQL，这里简单介绍一下我在工作中用到的使用PySpark读写MySQL的使用。

门朝大海·2019-07-30 23:35

Spark读取Hive中的数据加载为DataFrame

首先要告诉SparkSql，Hive在哪。然后读取Hive中的数据，必须开启enableHiveSupport。

墨玉浮白·2019-07-30 21:12

5. JDBC/ODBC服务器

SparkSQL也提供JDBC连接支持，这对于让商业智能(BI)工具连接到Spark集群上以及在多用户间共享一个集群的场景都非常有用。

铖歌·2019-07-29 14:00

Spark DataFrame 写入MySQL性能调优

driver(也为必须参数，如果不指定会报错)，dbtable后，发现写入数据时非常的慢，甚至只写入一部分后直接报错，为解决此问题，在网上搜索可以做以下调优sparkjdbc参数介绍：在spark官网sparksqljdbc

banana`·2019-07-29 14:39

合并Spark SQL产生的小文件

问题使用sparksql执行etl时候出现了，最终结果大小只有几百K或几M，但是小文件一个分区有上千的情况。

夜古诚·2019-07-27 16:52

推荐频道

sparkSQL

SparkSQL实现行转列与列转行

SparkSQL性能优化

Spark SQL读取Oracle的number类型的数据时精度丢失问题

SparkSQL读取/写入MySQL/Oracle数据(分区并行读取)

记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程

TiDB 数据库的四大应用场景分析

Spark SQL操作之-函数汇总篇-下

sparkSQL 连接Oracle

Spark学习笔记0——简单了解和技术架构

SparkSQL读取MySQL数据tinyint字段转换成boolean类型的解决方案

Migrate from Oracle to Spark SQL

structured streaming 介绍

大数据 SQL Boy 脱坑指南

Spark与Hive集成

7.推荐系统之SparkSQL

电商大数据应用之用户画像

Spark SQL overwrite问题

Scala基于MySQL元数据管理项目实战

spark streaming拉取kafka数据， 结合sparkSql dataframe hive存储计算，输出到mysql

大数据学习笔记之Spark（三）：SparkSQL应用解析

大数据技术及算法学习清单

Spark排序方式集锦

好程序员大数据学习路线分享SparkSQl

spark笔记之Spark SQL

Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations

Streaming+Sparksql使用sql实时分析 rabbitmq+mongodb+hive

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

Flink+Druid构建实时OLAP的探索

spark开窗函数

Spark SQL中出现 CROSS JOIN 问题解决

Spark项目实战学习电商项目

SparkSQL in中使用子查询耗时高如何优化

SparkSQL中SQL风格和DSL风格的使用

Spark-SQL-Java编程

分布式计算系统三巨头--Hadoop、Storm、Spark的区别和比较

Spark计算引擎之SparkSQL详解

Hadoop YARN：调度性能优化实践

Hadoop YARN：调度性能优化实践

大数据测试：sparkSQL取MySQL数据库中的数据

大数据入门之分布式计算框架Spark(2) -- Spark SQL

7. Spark SQL的运行原理

Apache Spark渐进式学习教程(六): SparkSQL简介及入门

大数据入门之分布式计算框架Spark(1) -- Spark初次见面

Spark常见问题汇总

spark程序打包为jar包，并且导出所有第三方依赖的jar包

PySpark 读写 MySQL

Spark读取Hive中的数据加载为DataFrame

5. JDBC/ODBC服务器

Spark DataFrame 写入MySQL性能调优

合并Spark SQL产生的小文件

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql