sparkSQL 第58页

RDD的处理方法（创建、转换、行动、分区）

sparksql支持sql查询，sparkstreaming可以支持流计算，sparkmLlib支持机器学习等。rdd编程是指sparkcore（底层）的编程。为什么叫rdd编程？

Rachel_nana·2020-06-22 12:14

Spark大数据处理系列之Machine Learning

在前面的《Spark大数据处理》系列文章，介绍ApacheSpark框架，介绍如何使用SparkSQL库的SQL接口去访问数据，使用SparkStreaming进行实时流式数据处理和分析。

IT资讯科技·2020-06-22 11:07

医疗Presto和GreenPlum选型测试报告

源神·2020-06-22 10:13

Spark2.2（五）SparkSQL读写Hive

IDEA中使用SparkSQL读写Hive添加依赖libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"2.2.0","org.apache.spark

H_w·2020-06-22 08:30

Ranger、LLAP管理SparkSQL权限配置(hiveserver2)

转载：https://zhuanlan.zhihu.com/p/35647068概述之前一直使用ranger管理hive的用户权限，现在系统要集成SparkSQL(thriftserver)，但是在ranger

W609392362·2020-06-22 07:52

Spark-使用总结-1

spark.sql.shuffle.partitions：对于SparkSQL中的shuffle类语句，比如groupby、join等，该参数代表了shufflereadtask的并行度，该

Snail_Moved_Slowly·2020-06-22 05:31

Spark工作原理入门

Spark工作原理入门文章目录Spark工作原理入门1.功能概要基本描述运用场景实际使用2.模块组成HDFSMLlibMesosTachyonGraphXSparkSQLSparkStreaming3.

Simple_sir_forever·2020-06-22 05:19

大数据实战项目之新闻话题分析学习笔记（十）

文章目录第21章：SparkSQL快速离线数据分析SparkSQL概述及特点SparkSQL服务架构SparkSQL与Hive集成（Spark-Shell）SparkSQL与Hive集成（Spark-sql

爱学习的Neehong·2020-06-22 05:50

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

Spark3.0中的SparkSQL是这个版本中

老夫编程说·2020-06-22 04:00

以源码为基础，结实际案例，深入分析Spark核心原理和生态圈BDAS

主要内容包括Spark生态圈、实战环境搭建、编程模型和内部重要模块的分析，重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架，同时还介绍了Spark生态圈相关组件，包括了SparkSQL

哆啦小迁·2020-06-22 03:42

Spark Streaming接收kafka数据，输出到HBase

需求Kafka+SparkStreaming+SparkSQL+HBase输出TOP5的排名结果排名作为Rowkey，word和count作为Column实现创建kafka生产者模拟随机生产数据objectproducer

Nougats·2020-06-22 02:25

sparksql按mysql实例+黑名单抽取数据，并生成hive的建表和视图的语句写入hdfs

最近做了一个小功能，在这记录一下：一部分maxwell+fink+黑名单实时抽取mysql的binlog数据，落地到hive表为了弥补历史数据未进行变更的问题，让我写了一套离线抽数据的程序实现的功能点一配置信息mysql.properties二pom文件三解析mysql.properties文件四加载对应mysql实例下的所有表五读取黑名单中的数据库和表，库和表都按，分隔六按照mysql实例查询出

Master_slaves·2020-06-22 01:34

大数据学习之路 --- Spark（内存计算框架）

--->Spark中有很多内容，本篇文章只讲其中的Sparkcore，Sparksql，Sparkstream。

Mai_Noe·2020-06-22 01:47

SparkSQL---Spark计算引擎模块

目录：一、SparkSQL简介二、SparkSQL特征1.易整合2.统一的数据访问方式3.兼容Hive4.标准的数据连接三、RDD、DataFrame和DataSet1.RDD2.DataFrame2.1

孤独の√ 3·2020-06-21 23:27

Spark集成Hive和Hbase实现离线数据分析

目录前言一、Spark+Hive1.配置2.测试二、Spark+Hbase1.配置2.测试前言SparkSQL是Spark处理结构化数据的模块。

IT142546355·2020-06-21 22:08

SparkSQL下Parquet中PushDown的实现

SparkSQL实现了PushDown，在Parquet文件中实现PushDown具有很重要的意义。PushDown是一种SQL优化方式，通常用在查询。

囧芝麻·2020-06-21 20:23

PySpark SQL 加载使用 tab 键分隔的文件

PySparkSQL加载使用tab键分隔的文件数据文件准备为了方便后面的实验,先生成数据文件data.txt,Python代码如下:data=['x1\t1\t2','x2\t2\t2','x3\t3\

珍妮的选择·2020-06-21 20:46

【Spark】一起了解一下大数据必不可少的Spark吧！

特点Spark架构模块主要架构模块SparkCoreSparkSQLSparkStreamingMLlibGraghX集群管理器主要运行角色MasterWorkerExecutorTaskApplicationJobclientDriverSpark

sqlBoy_·2020-06-21 18:17

大数据查询分析引擎比较

1、常见方案比较首先，Hive/SparkSQL在数据仓库的领域应用是比较广泛的，但是因为查询时延很难能够满足毫秒到秒级的要求，同时因为是离线计算，数据时效性也比较差。

BabyFish13·2020-06-21 17:57

大数据Spark和Hadoop以及区别（干货）

Spark包含了大数据领域常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX

BAO7988·2020-06-21 17:47

Apache Spark大数据分析入门（一）教程

全文共包括四个部分：第一部分：Spark入门，介绍如何使用Shell及RDDs第二部分：介绍SparkSQL、Dataframes及如何结合Spark与Cassandra一起使用第三部分：介绍Spar

BAO7988·2020-06-21 17:47

六（2）、sparkstreaming代码出现的一些情况分析

作业流程：mysqlbinlog——(steamsets)——>kafka——(sparkstreaming、sparksql)——>redis除了把结果数据放redis以外，还有把验证数据放redis

Angular_need·2020-06-21 16:05

sparksql 函数-2

字段映射处理，两种方式：str_to_map，casewhenselectcasesubstr(idcard,1,2)when'11'then'北京'when'33'then'浙江'when'46'then'海南'when'65'then'新疆'when'12'then'天津'when'34'then'安徽'when'50'then'重庆'when'71'then'台湾'when'13'then'

我家小宝_朱朱·2020-06-21 15:25

Flume+Spark+Hive+Spark SQL离线分析系统

当然Spark不光是可以做离线计算，还提供了许多功能强大的组件，比如说，SparkStreaming组件做实时计算，和Kafka等消息系统也有很好的兼容性；SparkSql，可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据

咕噜大大·2020-06-21 15:49

读写parquet格式文件的几种方式

摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFileapi读取hive中的parquet格式文件2.用sparkSql读写hive中的parquet格式3.用新旧MapReduce

woloqun·2020-06-21 14:13

开源OLAP引擎综评：HAWQ、Presto、ClickHouse

大家都知道开源大数据组件种类众多，其中开源OLAP引擎包含Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。

百分点大数据团队·2020-06-21 14:00

SparkSQL大数据实战：揭开Join的神秘面纱

Join操作是数据库和大数据计算中的高级特性，大多数场景都需要进行复杂的Join操作，本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。

weixin_34306446·2020-06-21 11:01

Spark SQL 分析 Imooc 访问日志

weixin_33816946·2020-06-21 10:58

新闻实时分析系统 SQL快速离线数据分析

1.SparkSQL概述1）SparkSQL是Spark核心功能的一部分，是在2014年4月份Spark1.0版本时发布的。

weixin_30730151·2020-06-21 10:12

MongoDB + Spark: 完整的大数据解决方案

通用性：我们可以使用SparkSQL来执行常规分析，SparkStreaming来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表现之一。

吉阿·2020-06-21 08:15

大数据不就是写SQL吗？好像是的。

SparkSQL、Hive、Phoen

简说Python·2020-06-21 05:23

大数据 SQL Boy 脱坑指南

大数据行业跟SQL更是有不解之缘，可谓“万物皆可SQL化”，从Hive/SparkSQL等最原始的最普及的SQL查询引擎，到Impala/Presto/ClickHous

简说Python·2020-06-21 05:23

Flink1.10集成Hive快速入门

之后出现的SQL引擎，如SparkSQL、Impala等，都在一定程度上提供了与Hive集成的功能，从而方便用户使用现有的数据仓库、进行作业迁移等。

jmx_bigdata·2020-06-21 02:44

Airflow填坑 - 生产环境实战，开始时间与周期的设置

首先，介绍一下需求在大数据处理阶段，也就是数据的ETL，我们通过公司自己开发的平台，将各个业务流程模型化，模型=输入算子+数据处理算子（SQL化，底层为sparksql）+输出算子，类似于这种模型，代表一个个的业务

冯JK·2020-06-20 22:06

Spark 进阶之路之「SparkSQL」入门概述 | 博文精选

而今天想为为大家介绍的是SparkSQL的概述。什么是SparkSQL？

CSDN云计算·2020-06-20 22:08

[SQL]SparkS/Hive/HBase整合

2016/05/673.htmHive从1.1之后，支持使用Spark作为执行引擎，配置使用SparkOnYarn作为Hive的执行引擎，首先需要注意以下两个问题：Hive的版本和Spark的版本要匹配；SparkSQL

葡萄喃喃呓语·2020-06-20 21:23

Apache CarbonData 2.0 开发实用系列之一：与Spark SQL集成使用

【摘要】在SparkSQL中使用CarbonData【准备CarbonData】在浏览器地址栏输入以下链接,点击"download"按钮下载已经准备好的CarbonDatajar包链接：https://

华为云·2020-06-20 20:05

DataFrame的创建&操作

SparkSQL是Spark中的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象，就是DataFrame。同时SparkSQL还可以作为分布式的SQL查询引擎。

hipeer·2020-06-20 20:58

【Spark学习笔记】 Scala DataFrame操作大全

1、创建DataFrame本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下:valspark=SparkSession.builder().appName("SparkSQLbasicexample

不可能打工·2020-06-16 11:39

Spark_SparkSQL 中定义 UDTF

我们看下如何在SparkSQL中定义并使用UDTF。Basespark2.2.0BaseHive2.1.1历史方案Spark1.

高达一号·2020-05-31 16:52

Spark SQL 教程

一、什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。

weare_b646·2020-05-29 12:48

Spark SQL源码解析（五）SparkPlan准备和执行阶段

SparkSQL原理解析前言：SparkSQL源码剖析（一）SQL解析框架Catalyst流程概述SparkSQL源码解析（二）Antlr4解析Sql并生成树SparkSQL源码解析（三）Analysis

zzzzMing·2020-05-27 18:00

Hive UDF使用资源文件及动态更新方案

Hive0.13版本开始支持自定义永久函数（PermanentFunction）,可以将函数注册到HiveMetastore，通过Hive/Beeline/SparkSQL可以直接引用，不需要类似于临

demigelemiao·2020-05-26 13:00

Spark SQL ThriftServer

SparkSQLThriftServer启动命令默认情况下，Spark日志目录SPARK_LOG_DIR指向SPARK_HOME/logs，如因权限访问控制，可以通过显示设置环境变量SPARK_LOG_DIR