sparkSQL 第40页

【Spark篇】---SparkSQL on Hive的配置和使用

一、前述SparkonHive：Hive只作为储存角色，Spark负责sql解析优化，执行。二、具体配置1、在Spark客户端配置HiveOnSpark在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml：配置hive的metastore路径hive.metastore.uristhrift://node1:90832、启动Hive的metastore服务

L先生AI课堂·2020-08-18 10:06

Spark（四）————SparkSQL和SparkStreaming

1、什么是SparkSQLSparkSQL模块能构建在Spark上运行sql语句，主要有DataFrame（数据框、表），它类似于构建在hadoop上的hive以及构建在hbase上的pheonix用于进行

Jorocco·2020-08-18 10:34

Spark通过Dataframe操作hive

1.1、创建一个SQLContext,SQLContext（及其子类，如本节的HiveContext）是SparkSQL所有功能的入口SqlContext:应该是对应spark-sql这个project

chbxw·2020-08-18 10:39

Spark：实时数据微批处理（4.Spark sql及项目实战）

文章目录1.SparkSQL概述1.1什么是SparkSQL?

卖女孩的小火柴Jaffe·2020-08-18 10:05

SparkSQL如何实现多数据源交互？这篇博客或许能告诉你答案!

写在前面：博主是一名软件工程系大数据应用开发专业大二的学生，昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白，写博客一方面是为了记录自己的学习历程，一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限，博客中难免会有一些错误，有纰漏之处恳请各位大佬不吝赐教！个人小站:http://alices.ibilibili.xyz/,博客主页:https://ali

Alice菌·2020-08-18 10:34

Spark SQL之Hive数据源实战

目录一：HiveContext与SQLContext的区别二：使用SparkSQL操作Hive三：DataFrame的saveAsTable命令四：查询分数大于80分的学生的完整信息一：HiveContext

威少SOS·2020-08-18 10:29

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark SQL案例实战（一）...

作者：周志湖放假了，终于能抽出时间更新博客了…….1.获取数据本文通过将github上的Spark项目git日志作为数据，对SparkSQL的内容进行详细介绍数据获取命令如下：[root@masterspark

weixin_34226182·2020-08-18 10:28

spark2.3.0 配置spark sql 操作hive

spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过sparksql与hive结合实现数据分析将成为一种最佳实践。

weixin_33967071·2020-08-18 10:25

SparkSql详细概述

什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。

大数据小同学·2020-08-18 10:19

【SparkSQL】SparkSQL与多数据源交互的操作

目录介绍写数据读数据总结介绍SparkSQL可以与多种数据源交互，如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源写数据//创建SparkSessionvalspark

没去过埃及的法老·2020-08-18 10:37

Spark Streaming篇2：Spark Streaming 更新update数据到mysql

SparkStreaming篇2：SparkStreaming更新update数据到mysql目前有很多方式写入mysql，你可以在streaming中创建DataFrame，用sparksql写入mysql

叮咚菜鸟许某人·2020-08-18 10:36

spark篇1：Spark和SparkSql UDF数据倾斜之随机数前缀

spark篇1：Spark和SparkSqlUDF数据倾斜之随机数前缀废话不多说，直接上干货1sparkrdd思路：先加前缀一次聚会，再去前缀二次聚合packageRDDDFDSimportRDDDFDS

叮咚菜鸟许某人·2020-08-18 10:36

大数据系列之SparkSql应用解析（三)

文章目录第1章SparkSQL概述1.1什么是SparkSQL1.2RDDvsDataFramesvsDataSet1.2.1RDD1.2.2Dataframe1.2.3Dataset1.2.4三者的共性

开封程序员阿强·2020-08-18 10:34

22 ，sparkSql ：数据源，内置格式，读数据，存数据，运行 sql文件上，spark on hive

一，数据源：1，默认数据源：Parquet格式修改默认格式：spark.sql.sources.default例子：packageday05_sparkSqlimportorg.apache.spark.sql.SparkSessionobjectDemo03Parqut

孙砚秋·2020-08-18 10:02

使用Spark SQL读取Hive上的数据

SparkSQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源（比如Parquet、Hive、Json等）。

qq_duhai·2020-08-18 10:29

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结

2、SparkStreaming能够和SparkCore、SparkSQL来进行混合编程。3、SparkStreaming我们主要关注：（1）SparkStreaming能接受什么数据？kafka

aodawu2891·2020-08-18 10:39

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

与SparkSQL结合使用SparkStreaming最强大的地方在于，可以与SparkCore、SparkSQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream

ZFH__ZJ·2020-08-18 10:07

PySpark---SparkSQL中的DataFrame(一)

DataFrame是按照列名来组织数据的分布式数据集，是SparkSQL最重要的抽象。

XiaodunLP·2020-08-18 10:07

大数据

HDFS+MapReduce+Yarn）HBase（JavaAPI操作+Phoenix）Hive(Hql基本操作和原理理解）KafkaStorm/JStormScalaPythonSpark(Core+sparksql

物流大师·2020-08-18 10:57

Spark SQL 快速入门系列(7) | SparkSQL如何实现与多数据源交互

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客主页：https://buwenb

不温卜火·2020-08-18 10:51

SparkSql中生成DataFrame的四种方式

SparkSql中生成DataFrame的四种方式:方式一:定义一个caseclass类,将其作为RDD中的存储类型,然后导包importspark.implicts.

StudyEverydayForward·2020-08-18 10:18

org.apache.commons.codec.binary.Base64与sun.misc.BASE64Encoder等效

SparkSQL自定义函数遇见这个问题importorg.apache.commons.codec.binary.Base64;privatestaticvoidtest1()throwsException

bigdata-余建新·2020-08-18 10:33

当前京东数据平台用到spark 的五种方式

当前京东数据平台用到spark的五种方式1.sparksql数据从Hive同步到ES用python包装命令，使用spark-submit提交，run_shell_cmd(spark-submit)具体案例可以参考另外的博文

秉寒CHO·2020-08-17 22:30

BigData————hdfs

大数据数据量很大需要用到的技术：hadoop（是一个生态圈）hdfssparksparkcoresparkStreamingsparksqlhdfs产生背景数据存储：方案一：纵向扩展在一台服务器上进行硬件的扩展

cool_cool_coo1·2020-08-17 20:06

Spark学习笔记（三）——SparkSQL（DataSet、DataFrame、hive集成、连接mysql）

SparkSQLSparkSQL精华及与Hive的集成一、SparkSQL简介1、SQLonHadoop2、SparkSQL前身3、SparkSQL架构4、SparkSQL运行原理5、Catalyst优化器二

throws-Exception·2020-08-17 09:31

SparkSQL /DataFrame /Spark RDD谁快？

NO如题所示，SparkSQL/DataFrame/SparkRDD谁快？

品途旅游·2020-08-16 23:13

shell - 循环执行sparkSql程序

shell循环执行sparkSql程序[hadoop@slave106test]$catstart.sh#拿到random所有文件名，写入random.txthdfsdfs-ls/yk/data/random

YK_324504836·2020-08-16 20:15

30天搞定spark源码系列-RDD番外篇-shuffledRDD

典型的shuffle类算子sparkshuffle在实战中的优化方向shuffledRDD的基本流程和代码框架是什么1、sparkshuffle相信对于使用过spark的童鞋来说，不管是sparksql

枫叶的落寞·2020-08-16 15:06

spark采坑集锦之sparksql操作hive

sparksql如果想操作hive，用sql命令在hive中操作表一、需要在spark安装目录的conf文件夹准备好以下三个文件hadoop安装目录中conf文件夹下的配置文件core-site.xmlhdfs-site.xmlhive

方兵兵·2020-08-16 08:35

spark操作hive（可解决绝大部分的问题）、sparksql操作hive

目标：想要完成使用spark在windows的idea下操作hive（对hive中的表查询等）最终代码（java）：importorg.apache.spark.sql.SparkSession;importjava.io.Serializable;/***CreatedbyAdministratoron2017/4/3.*/publicclassSQLHiveJava{publicstaticv

LaZY_apple·2020-08-16 05:49

大数据_hive和sparksql的对比

sparksql可以使用hive里面的表，并做操作，并且会很快但是需要做如下配置1.hive-site.xmlhive的元数据配置文件要拷贝到spark的conf路径下2.spark的启动要加上--jarsmysql

Smile_dip·2020-08-15 22:51

SparkSQL /DataFrame /Spark RDD谁快？

如题所示，SparkSQL/DataFrame/SparkRDD谁快？

凝望远处的天鹅·2020-08-15 21:00

SparkSQL /DataFrame /Spark RDD谁快？

如题所示，SparkSQL/DataFrame/SparkRDD谁快？

凝望远处的天鹅·2020-08-15 21:00

大数据系统-Spark生态系统

其核心框架是Spark，同时涵盖支持结构化数据SQL查询与分析的查询引擎SparkSQL，提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib，并行图计算框架GraphX，流计算框架SparkStreaming

gao8658·2020-08-15 07:09

【Kylin】（一）初识 Apache Kylin

目前已经出现了很多优秀的SQLonHadoop引擎，包括Hive、Impala及SparkSQL等，这些技术的出现和应用极大地降低了用

云祁·2020-08-15 05:58

通过一条SQL分析SparkSQL执行过程(三)

目录一、SparkSql解析步骤二、Spark的实现过程详解2.1）解析器2.2）分析器2.3）优化器2.4）Planner一、SparkSql解析步骤对于下面一段SQLSELECTa.uid,b.name

北京小辉·2020-08-15 03:23

Spark SQL(9)-Spark SQL JOIN操作源码总结

SparkSQL(9)-SparkSQLJOIN操作源码总结本文主要总结下sparksqljoin操作的实现，本文会根据sparksql的源码来总结其具体的实现；大体流程还是从sql语句到逻辑算子树再到

刘姥爷观园子·2020-08-15 01:00

简单总结spark中executer的个数设置

1.standlone模式下公式：execuoterNum=spark.cores.max/spark.executor.cores相关参数在启动具体应用时指定例如启动基于standlone模式的sparksql

AI_skynet·2020-08-14 22:55

Spark学习-SparkSQL--04-SparkSQL CLI 单节点运行与yarn集群运行

executor-memory40g--total-executor-cores50--confspark.sql.warehouse.dir=hdfs://bigdata01.hzjs.co:8020/user/sparksql

九师兄·2020-08-14 18:35

Intel李锐：Hive on Spark解析

相较于其他诸如Impala、Shark（SparkSQL的前身）等引擎而言，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。

layne_liang·2020-08-14 18:00

十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示

SparkSQL学习有一段时间了,因此花了一些时间写了一个日志清洗的项目,项目已经上传到github上了,项目地址感兴趣的可以拉下来看看。

飞翔的小宇宙·2020-08-14 17:58

从0开始学习spark（3）Spark Core 核心知识

零基础入门第三课1.Spark作业调度方式1.1cluster和client的区别2.spark核心功能介绍：2.1SparkContext2.2存储体系2.3计算引擎2.4部署模式3.Spark扩展功能3.1SparkSQL3.2SparkStreaming3.3SparkGraphX3.4SparkMLlib4

蛋蛋淡淡定·2020-08-14 11:29

SparkSQL读取CSV文件

一、核心代码valspark=SparkSession.builder().master("local[2]").appName("app").getOrCreate()//读取文件valsrcDF=spark.read.format("csv").option("header","true").option("multiLine",true).load("file:///C:\\1.csv")s

忘川三途·2020-08-14 11:14

pyspark sql使用总结

pysparksql使用总结将多列合并为一列去除重复项string转为date格式将多列合并为一列concat函数，将多列合并为一列。

weixin_44053979·2020-08-13 22:20

spark中将数据输出到json文件的两种方式

通常的案例就是，给我们一个普通文件，然后我们用sparkcore或者sparkSQL，遍历文件内容后，按照需求将再将遍历后得到的数据写入json文件中。

物物相连·2020-08-13 22:52

spark：sparksql：jdbc测试（mysql）

/***数据源：JDBC*@paramspark*/deftestJDBC(spark:SparkSession):Unit={//从机器1的mysql读取数据println("========================第一种读取mysql方式================================")//默认partation为1valurl1:String="jdbc:mysql

花和尚也有春天·2020-08-13 21:21

spark sql 的catalyst优化器

需求：根据datalog解析出各个表、列名、以及根据表的join次数评选出热点表排名实现解析:sparksql的catalyst优化器过程解析：sparksql的执行经历了以下几个阶段1.parse(解析

一只考考拉·2020-08-13 21:20

Spark SQL之External DataSource外部数据源（二）源代码分析

/**SparkSQL源代码分析系列文章*/（Ps:ExternalDataSource使用篇地址：SparkSQL之ExternalDataSource外部数据源（一）演示样例http://blog.csdn.net

weixin_34375251·2020-08-13 21:05

sparkSql catalyst优化器

2019独角兽企业重金招聘Python工程师标准>>>相关概念AST树SQL语法树是编译后被解析的树状结构，树包括很多对象，每个节点都有特定的数据类型，同事有孩子节点（TreeNode对象）。规则等价规则转化将规则用于语法树。任何一个SQL优化器中，都会定义大量的Rule，SQL优化器遍历所有节点。匹配所有给定规则，如果匹配成功进行相应转换；失败则继续遍历下一个节点。Catalyst工作流程Par

weixin_34349320·2020-08-13 21:29

深入研究Spark SQL的Catalyst优化器（原创翻译）

weixin_34281477·2020-08-13 21:15

推荐频道

sparkSQL

【Spark篇】---SparkSQL on Hive的配置和使用

Spark（四）————SparkSQL和SparkStreaming

Spark通过Dataframe操作hive

Spark：实时数据微批处理（4.Spark sql及项目实战）

SparkSQL如何实现多数据源交互？这篇博客或许能告诉你答案!

Spark SQL之Hive数据源实战

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark SQL案例实战（一）...

spark2.3.0 配置spark sql 操作hive

SparkSql详细概述

【SparkSQL】SparkSQL与多数据源交互的操作

Spark Streaming篇2：Spark Streaming 更新update数据到mysql

spark篇1：Spark和SparkSql UDF数据倾斜之随机数前缀

大数据系列之SparkSql应用解析（三)

22 ，sparkSql ： 数据源，内置格式，读数据，存数据，运行 sql文件上，spark on hive

使用Spark SQL读取Hive上的数据

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

PySpark---SparkSQL中的DataFrame(一)

大数据

Spark SQL 快速入门系列(7) | SparkSQL如何实现与多数据源交互

SparkSql中生成DataFrame的四种方式

org.apache.commons.codec.binary.Base64与sun.misc.BASE64Encoder等效

当前京东数据平台用到spark 的五种方式

BigData————hdfs

Spark学习笔记（三）——SparkSQL（DataSet、DataFrame、hive集成、连接mysql）

SparkSQL /DataFrame /Spark RDD谁快？

shell - 循环执行sparkSql程序

30天搞定spark源码系列-RDD番外篇-shuffledRDD

spark采坑集锦之sparksql操作hive

spark操作hive（可解决绝大部分的问题）、sparksql操作hive

大数据_hive和sparksql的对比

SparkSQL /DataFrame /Spark RDD谁快？

SparkSQL /DataFrame /Spark RDD谁快？

大数据系统-Spark生态系统

【Kylin】（一）初识 Apache Kylin

通过一条SQL分析SparkSQL执行过程(三)

Spark SQL(9)-Spark SQL JOIN操作源码总结

简单总结spark中executer的个数设置

Spark学习-SparkSQL--04-SparkSQL CLI 单节点运行与yarn集群运行

Intel李锐：Hive on Spark解析

十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示

从0开始学习spark（3）Spark Core 核心知识

SparkSQL读取CSV文件

pyspark sql使用总结

spark中将数据输出到json文件的两种方式

spark：sparksql：jdbc测试（mysql）

spark sql 的catalyst优化器

Spark SQL之External DataSource外部数据源（二）源代码分析

sparkSql catalyst优化器

深入研究Spark SQL的Catalyst优化器（原创翻译）

22 ，sparkSql ：数据源，内置格式，读数据，存数据，运行 sql文件上，spark on hive