sparkSQL 第64页

spark大数据架构初学入门基础详解

Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)

13157330443·2019-11-27 22:11

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

SequoiaDB一款自研金融级分布式数据库产品，支持标准SQL和分布式事务功能、支持复杂索引查询，兼容MySQL、PGSQL、SparkSQL等SQL访问方式。

OliverFinn·2019-11-27 15:47

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

SequoiaDB一款自研金融级分布式数据库产品，支持标准SQL和分布式事务功能、支持复杂索引查询，兼容MySQL、PGSQL、SparkSQL等SQL访问方式。

SequoiaDB巨杉数据库·2019-11-27 15:00

Hadoop YARN：调度性能优化实践

离线业务主要运行的是HiveonMapReduce，SparkSQL为主的数据仓库作业。实时业务主要运行SparkStreaming，Flink为主的实时流计算作业。

艾弗森哇·2019-11-23 16:56

Spark 大数据分析-介绍

目录Spark的技术生态SparkcoreSparkSQLSparkstreamingMLlibGraphXSpark的基本原理ApplicationExecutorWorkerTaskJobStageDAGSchedulerTaskSchedulerRDD

sword_csdn·2019-11-17 12:32

四、spark--sparkSQL原理和使用

[TOC]一、sparkSQL概述1.1什么是sparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

隔壁小白·2019-11-15 18:38

一、spark--spark基本概述

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Sp

隔壁小白·2019-11-15 17:28

Delta Lake - 数据湖的数据可靠性

这位是ApacheSpark的committer和PMC成员，也是SparkSQL的最初创建者，目前领导Databricks团队，设计和构建StructuredStreaming和DatabricksDelta

DataFlow范式·2019-11-14 20:04

spark 2.0 新特性

SparkCore&SparkSQLdataframe与dataset统一，dataframe只是dataset[Row]的类型别名，移除dataframe类。

Cherish_Qiang·2019-11-08 18:10

spark入门

批处理（hadoop）、迭代式运算（机器学习系统）、交互式查询（Hive）、流处理（Storm），降低了成本和其他大数据工具整合很好，如hadoop、kafka2.spark组件组件SparkCoreSparkSQLSpartStreamingSp

全然大好人·2019-11-07 04:26

Spark SQL Catalyst优化器

记录一下个人对sparkSql的catalyst这个函数式的可扩展的查询优化器的理解，目录如下，0.Overview1.Catalyst工作流程2.Parser模块3.Analyzer模块4.Optimizer

chenfh5·2019-11-06 18:32

SparkSQL – 从0到1认识Catalyst

转自：http://hbasefly.com/2017/03/01/sparksql-catalyst/最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。

严国华·2019-11-06 09:52

数据读取与存储

数据源类型文件系统中的不同文件格式数据源：支持文件系统包括NFS,HDFS,AmazonS3,支持的文件格式包括有：文本文件，JSON，SequenceFile，protocalbufferSparkSQL

Spike_3154·2019-11-06 03:14

Antlr4 - 自定义SparkSQL解析

>Antlr4是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一个可以构建和遍历解析树的解析器，最出名的Spark计算引擎2.x就是用它来解析SQL的，是一个牛到没朋友的家伙。##IDEA测试**IDEA语法分析插件**下载[antlr-v4-grammar-plugin](https://plugins.jetbrains.com/files/7

kikiki4·2019-11-05 00:02

大数据学习路线（完整详细版）

,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,sparksql

花半唐·2019-11-03 03:15

转载：一个SparkSQL作业的一生

一个SparkSQL作业的一生2015-12-11网易后台-马晓宇数据管理Spark是时下很火的计算框架，由UCBerkeleyAMPLab研发，并由原班人马创建的Databricks负责商业化相关事务

IQ75·2019-10-31 19:10

巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

当今时代，企业数据越发膨胀。数据是企业的价值，但数据处理也是一种技术挑战。在海量数据处理的场景，即使单机计算能力再强，也无法满足日益增长的数据处理需求。所以，分布式才是解决该类问题的根本解决方案。而在分布式领域，有两类典型产品，分别是分布式存储和分布式计算。用户只有将两者的特性充分利用，才可以真正发挥分布式架构的存储和计算能力。本文介绍SequoiaDB（分布式存储）和Spark（分布式计算）两款

OliverFinn·2019-10-31 17:10

从零开始学习Spark（六）数据读取与保存

Spark支持以下三种主要数据源：1.文件格式（如JSON等）2.文件系统（如HDFS）3.SparkSQL中的结构化数据源4.数据库与键值存储（如Cassandra，JDBC等）这部分只是简单介绍一下

C就要毕业了·2019-10-31 14:04

PySpark读取Mysql数据到DataFrame！

Spark版本:2.1Python版本：2.7.12了解了SparkRDD之后，小编今天有体验了一把SparkSQL，使用SparkSQL时，最主要的两个组件就是DataFrame和SQLContext

文哥的学习日记·2019-10-31 13:02

Spark Core 解析：RDD

引言SparkCore是Spark的核心部分，是SparkSQL，SparkStreaming，SparkMLlib等等其他模块的基础,SparkCore提供了开发分布式应用的脚手架，使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现

Liam·2019-10-30 05:25

SparkSql 读写Hive 分区表（数据清洗类）

主要使用SparkSql对Hive分区表使用动态分区进行操作，根据规则对数据进行清洗等，除了刚导入数据时指定date范围清洗，后期按天进行清洗。

心有余力·2019-10-23 16:00

环境利用Spark处理 json 文件至SQL

.*///2.0sparksql统一的入口objectSparkSessionTest{defmain(args:Array[String]):Unit={System.setProperty("hadoop.h

一只挪威森林猫·2019-10-22 21:00

spark笔记第一天（安装、组件）

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计

明檬初见·2019-10-22 19:24

spark_1(概述与集群搭建)

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、S

lixg_0515·2019-10-21 19:25

Spark(六) SQL API

汇总SparkSQL和DataFrames的重要类：pyspark.sql.SparkSessionDataFrame和SQL功能的主要入口点。

得克特·2019-10-20 18:54

Spark学习笔记(一)

2.易用：支持多种语言3.通用：SparkCore、SparkSQL、SparkStreaming（流式计算）4.兼容性好：完全兼容HadoopSpar

Jayboy.chen·2019-10-19 09:56

如何避免生产Spark Shuffle的某场景

数据倾斜场景在对RDD使用join类操作，或者是在SparkSQL中使用join语句时，而且join操作中的一个RDD或表的数据量比较小（比如几百M或者一两G

黑马程序员广州·2019-10-17 03:04

Spark读取HBASE注册临时表使用sparkSQL查询计算

参考文档:scala版写的SparkSQL程序读取Hbase表注册成表SQL查询https://blog.csdn.net/qq_21383435/article/details/77328805第一种思路

我在北国不背锅·2019-10-15 15:09

Spark SQL数据倾斜解决方案

由于Spark都是基于RDD的特性，所以可以用纯RDD的方法，实现和SparkSQL一模一样的功能。之前在SparkCore中的数据倾斜的七种解决方案，全部都可以直接套用在SparkSQL上。

studyhardatEnglish·2019-10-14 17:35

Spark无法读取hive 3.x的表数据

通过Ambari2.7.3安装HDP3.1.0成功之后，通过sparksql去查询hive表的数据发现竟然无法查询HDP3.0集成了hive3.0和spark2.3，然而spark却读取不了hive表的数据

鹏飞万丈·2019-10-14 11:00

SparkSql之UDF、UDAF、UDTF

UDF----------------------------------------完整的示例：objectSparkSQL{defmain(args:Array[String]):Unit={//创建

不急吃口药·2019-10-11 00:41

SparkSQL 分隔字段和解析Json

原始数据格式为：timestamp|json（嵌套）1570384823445|{"cp_game_id":xxx,"category":"cp_api","event":{"event_time":"xxx","event_name":"money_flow"},"data":{"GAME_SERVER":"xxx","ROLE_ID":"xxx","ROLE_NAME":"xxx","ROLE

心有余力·2019-10-09 14:17

Hive 之元数据表结构详解

本文介绍Hive元数据库中一些重要的表结构及用途，方便Impala、SparkSQL、Hive等

少年阿峣_从零单排·2019-10-08 16:20

RDD DataFrame DataSet 区别和转换

而右侧的DataFrame却提供了详细的结构信息，使得SparkSQL可以清楚地知

dufufd·2019-09-26 18:47

SPARK 2.2.1 SQL处理各种数据源的案例与解读

SparkSQL支持从各种数据源加载文件构建DataFrame/DataSet，以及将DataFrame/DataSet保存到各种数据源中。

段智华·2019-09-26 18:12

Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读

Spark2.2.1使用JDBC操作其他数据库的案例与解读SparkSQL包括一个数据源，可以从其他数据库使用JDBC读取数据。这个功能优先于使用JdbcRDD。

段智华·2019-09-26 18:32

27.1.1.3 Spark SQL 中ANTLR4的应用

27.1.1.3SparkSQL中ANTLR4的应用ANTLR是一个强大的解析器生成器，可用于读取，处理，执行或翻译结构化文本或二进制文件。它广泛应用于学术界和工业界，建立各种语言，工具和框架。

段智华·2019-09-26 18:31

hive任务优化-Current usage: 2.0 GB of 2 GB physical memory used; 4.0 GB of 16.2 GB virtual memory used.

mapreduce.map.memory.mb或者mapreduce.reduce.memory.mb（建议）3.适当增大yarn.nodemanager.vmem-pmem-ratio的大小4.换成sparkSQL

MrZhangBaby·2019-09-24 16:50

Spark整合Mongodb的方法

通用性：我们可以使用SparkSQL来执行常规分析，SparkStreaming来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表现之一。

·2019-09-24 15:46

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、SparkSQL简介SparkSQL是Spark中的一个子模块，主要用于操作结构化数据。

heibaiying·2019-09-23 08:38

20-SparkSQL01

SparkSQLIOESQL：schema+fileselect...fromxxxwhere.....SQLonHadoopHiveImpalaPrestoSharkDrillPhoenixSparkSQLHiveonSparkMapReduceTezSparkSparkAPISQLDataFrame

CrUelAnGElPG·2019-09-21 22:00

20-SparkSQL01

SparkSQLIOESQL：schema+fileselect...fromxxxwhere.....SQLonHadoopHiveImpalaPrestoSharkDrillPhoenixSparkSQLHiveonSparkMapReduceTezSparkSparkAPISQLDataFrame

CrUelAnGElPG·2019-09-21 22:00

22-SparkSQL03

ExternalDataSourceAPI外部数据源MapReduceHiveSpark加载数据格式：json、parquet、text、jdbc......+compressionuser.jsonid:1,name:xxxid:"xx",name:xxx,session_id:xxxFileSystem:HDFS、HBase、S3、OSShdfs://......s3a://s3n://end

CrUelAnGElPG·2019-09-21 22:21

22-SparkSQL03

ExternalDataSourceAPI外部数据源MapReduceHiveSpark加载数据格式：json、parquet、text、jdbc......+compressionuser.jsonid:1,name:xxxid:"xx",name:xxx,session_id:xxxFileSystem:HDFS、HBase、S3、OSShdfs://......s3a://s3n://end

CrUelAnGElPG·2019-09-21 22:21

spark sql数据源--hive

使用的是idea编辑器sparksql从hive中读取数据的步骤：1.引入hive的jar包2.将hive-site.xml放到resource下3.sparksql声明对hive的支持案例：defmain

zhangqi00·2019-09-21 15:00

电商用户画像环境搭建

本项目采用SparkSql与hive进

qq5d3e5bae55f08·2019-09-20 14:22

【大数据】面试题0001---使用SparkSQL关联两个表求和取前几行

场景：有两个表，表可以是文本或Json数据，结构化后分别是Table1(A，B，C）和Table2（C、D、E），两个表通过C关联，要求求出D+E之和，并以（A、B、D+E）三列返回解答：思路：SparkSQL

咸鱼翻身·2019-09-19 23:00

SparkSQL处理增量更新与全量更新

SparkSQL的增量更新项目包结构:工具类Utils:packagecom.zhbr.utilsimportjava.util.Propertiesimportorg.apache.spark.sql.execution.datasources.jdbc.JDBCOptionsimportorg.apache.spark.sql

我在北国不背锅·2019-09-19 09:36

SparkSQL中两个decimal类型数据相除(相乘)为null的问题

源表pdwqy_qxzh_piu字段类型:如代码所示，在计算过程时，RFHL计算结果总是为null。代码://读取数据valdata:DataFrame=spark.read.format("jdbc").option("url","jdbc:mysql://21.76.120.XX:3306/us_app").option("dbtable","pdwqy_qxzh_piu").option("

我在北国不背锅·2019-09-18 15:57

SparkSql 数据类型转换

前言数据类型转换这个在任何语言框架中都会涉及到，看起来非常简单，不过要把所有的数据类型都掌握还是需要一定的时间历练的SparkSql数据类型数字类型ByteType：代表一个字节的整数。

SunnyRivers·2019-09-18 11:18

推荐频道

sparkSQL

spark大数据架构初学入门基础详解

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

Hadoop YARN：调度性能优化实践

Spark 大数据分析-介绍

四、spark--sparkSQL原理和使用

一、spark--spark基本概述

Delta Lake - 数据湖的数据可靠性

spark 2.0 新特性

spark入门

Spark SQL Catalyst优化器

SparkSQL – 从0到1认识Catalyst

数据读取与存储

Antlr4 - 自定义SparkSQL解析

大数据学习路线（完整详细版）

转载：一个SparkSQL作业的一生

巨杉Tech | SparkSQL+SequoiaDB 性能调优策略

从零开始学习Spark（六）数据读取与保存

PySpark读取Mysql数据到DataFrame！

Spark Core 解析：RDD

SparkSql 读写Hive 分区表（数据清洗类）

环境利用Spark处理 json 文件至SQL

spark笔记第一天 （安装、组件）

spark_1(概述与集群搭建)

Spark(六) SQL API

Spark学习笔记(一)

如何避免生产Spark Shuffle的某场景

Spark读取HBASE注册临时表使用sparkSQL查询计算

Spark SQL数据倾斜解决方案

Spark无法读取hive 3.x的表数据

SparkSql之UDF、UDAF、UDTF

SparkSQL 分隔字段和解析Json

Hive 之 元数据表结构详解

RDD DataFrame DataSet 区别和转换

SPARK 2.2.1 SQL处理各种数据源的案例与解读

Spark 2.2.1 使用JDBC 操作其他数据库的案例与解读

27.1.1.3 Spark SQL 中ANTLR4的应用

hive任务优化-Current usage: 2.0 GB of 2 GB physical memory used; 4.0 GB of 16.2 GB virtual memory used.

Spark整合Mongodb的方法

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

20-SparkSQL01

20-SparkSQL01

22-SparkSQL03

22-SparkSQL03

spark sql数据源--hive

电商用户画像环境搭建

【大数据】面试题0001---使用SparkSQL关联两个表求和取前几行

SparkSQL处理增量更新与全量更新

SparkSQL中两个decimal类型数据相除(相乘)为null的问题

SparkSql 数据类型转换

spark笔记第一天（安装、组件）

Hive 之元数据表结构详解