sparkSQL 第62页

分布式 SQL 引擎

分布式SQL引擎使用JDBC/ODBC或命令行接口，SparkSQL还可以作为一个分布式查询引擎。在该模式下，终端用户或Application可以直接执行SQL查询，而不用写任何代码。

丹之·2020-02-06 17:24

Spark SQL中Join常用的几种实现

因为Join操作是对两个表中key值相同的记录进行连接，在SparkSQL中，对两个表做Join最直接的方式是先

丹之·2020-02-06 14:44

mlsql流任务实现distinct

流计算场景里distinct很常用，sparksql对streamdataset不支持SELECTCOUNT(DISTINCTCompany)FROMOrders这种用法，但是dataframe支持dropDuplicates

dongbin_·2020-02-05 20:56

SparkSQL学习笔记

概述冠状病毒来临，宅在家中给国家做贡献之际，写一篇随笔记录SparkSQL的学习笔记，目的有二，一是记录整理之前的知识作为备忘录，二是分享技术，大家共同进步，有问题也希望大家不吝赐教。

伯安知心·2020-02-05 15:00

[译]大数据分析平台搭建教程：基于Apache Zeppelin Notebook和R的交互式数据科学

方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括Scala(使用ApacheSpark)、Python(ApacheSpark)、SparkSQL、Hive、Markdown、Shell

FinanceR·2020-02-05 06:57

SparkSQL 调优

对一些SparkSQL任务，可以通过缓存数据、调优参数、增加并行度提升性能缓存数据sqlContext.cacheTable("tableName")或dataFrame.cache()构建一个内存中的列格式缓存使用

Alex90·2020-02-05 02:51

SparkSQL 如何自定义函数

1.SparkSql如何自定义函数2.示例：Average3.类型安全的自定义函数1.SparkSql如何自定义函数？

顾鹏pen·2020-02-04 22:00

寒假第十天

我今天学习了sparksqlSparkSQL可以很好地支持SQL查询，一方面，可以编写Spark应用程序使用SQL语句进行数据查询，另一方面，也可以使用标准的数据库连接器（比如JDBC或ODBC）连接Spark

张利杰j·2020-02-04 22:00

大三寒假生活8

今天完成了实验五的第一个，熟悉了SparkSQL基本操作，在安装插件的时候也遇到了以下的问题首先是在弄scala插件的时候，当scala安装成功后报错1、Couldnotcreatetheview:org.apache.hadoop.eclipse.view.servers

哈萨K·2020-02-04 22:00

寒假学习进度-5

sparksql的基本编程方法连接文件valdf=spark.read.json(“file:///abc/lianxi/bigdata/src/main/data/people.json”)显示scala

苍天の笑·2020-02-02 19:00

Spark SQL 简介

imageSpark1.0推出SparkSQL,是Spark生态系统中最活跃的组件之一。能够利用Spark进行结构化的存储和操作。

cuteximi_1995·2020-02-02 00:43

「Spark」Spark SQL Thrift Server运行方式

SparkSQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。这种模式，用户或者应用程序可以直接与SparkSQL交互，以运行SQL查询，无需编写任何代码。

M。一直走·2020-02-01 22:00

「Spark」Spark SQL Thrift Server运行方式

SparkSQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。这种模式，用户或者应用程序可以直接与SparkSQL交互，以运行SQL查询，无需编写任何代码。

M。·2020-02-01 22:00

SparkSQL 疫情Demo练习

在家闲着没事干,写个简单的疫情数据处理Demo,顺便回顾下SparkSQL。

wellDoneGaben·2020-02-01 17:00

1 Spark Streaming 透彻理解之一

海纳百川_spark·2020-02-01 04:00

spark学习笔记

1.3、SparkSQL通过SparkSQL，我们可以使用SQL或者Hive版本的SQL（HQL）来查询数据，支持多种数据源，比如Hive表、Parquet、JSON等。

seafreak·2020-01-31 02:36

Spark SQL实现遍历带父子id的树状结构表数据，生成带层级关系的维表数据

Hive不支持递归CTE，但可以通过SparkSQL遍历出带层级关系的数据。整体思路：准备好源头数据，主要保留结点id和对应的父结点id。获取根节点数据，定为第1级节点数据，保存该层级数据并做好标记。

蓝天之猪·2020-01-23 15:19

Spark核心技术与高级应用

Sparksql提供SQL查询

Peng小成·2020-01-19 22:03

Spark读写ES

本文主要介绍sparksql读写es、structuredstreaming写入es以及一些参数的配置ES官方提供了对spark的支持，可以直接通过spark读写es，具体可以参考ESSparkSupport

upupfeng·2020-01-17 14:00

spark-submit 说明

spark-submit任务提交spark-submit\--classsparksql.Oracle_Sqs_Hive\--masteryarn\--deploy-modecluster\/home/

鱼丸河粉·2020-01-10 17:00

Pyspark基础整理

，后续再理解）frompyspark.sqlimportSparkSessionspark=SparkSession.builder\.master("local")\.appName("PythonSparkSQLbasicexample

大林子_·2020-01-08 08:08

spark sql 调试技巧--内置udf查看

sparksql调试技巧--内置udf查看SparkSQL内置了许多常用的udf，我们该如何拿到用户的udf和内置的udf呢？

我要大声告诉你·2020-01-07 04:35

【2018-04-10】【2.1.1】spark sql操作mysql和hdfs

spark2.X与1.x的区别sparksql2.x以上版本和1.x版本有个很大的区别：spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell

jackLee·2020-01-07 04:45

spark大数据架构初学入门基础详解

Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)

Alukar·2020-01-06 21:49

Spark的那些事(四) java操作kudu全示例(含sparksql)

(痛苦的是sparksql查询kudu的java实现，官方没有示例，google也不好用)1）pom依

假文艺的真码农·2020-01-06 13:22

BigData－“基于代价优化”究竟是怎么一回事？

如若不知，强烈建议看官先行阅读前面两文－《SparkSQL–有必要坐下来聊聊Join》和《BigData–Join中竟然也有谓词下推!?》。

严国华·2020-01-06 13:43

【2018-04-09】【2.1版本】spark sql 读源码 notes

SparkSession是sparksql的入口类：valspark=SparkSession.builder().appName("SparkSQLdatasourcesexample").config

jackLee·2020-01-05 14:47

使用PySpark编写SparkSQL程序查询Hive数据仓库

作业脚本采用Python语言编写，Spark为Python开发者提供了一个API-----PySpark，利用PySpark可以很方便的连接Hive下面是准备要查询的HiveSQLselectsum(o.sale_price),sum(casewhencate_id2in(16,18)theno.sale_priceelse0end),sum(CASEWHENcate_id2in(13,15,17

teaGod·2020-01-05 13:23

面试系列：如何让你的spark sql运行的更快一些？

在spark设置并行度一般通过两种方式来设置：1.spark.default.parrallelism2.textFile()传入第二个参数，指定partition数量使用sparksql的时候会出现什么问题

guowei·2020-01-05 12:06

Spark通过修改DataFrame的schema给表字段添加注释

Spark建表，有两种方法：用SparkSql，在程序里组建表语句，然后用Spark.sql("建表语句")建表，这种方法麻烦的地方在于你要读取Ora

董可伦·2020-01-05 05:24

Spark学习记录|RDD分区的那些事

以前在工作中主要写SparkSQL相关的代码，对于RDD的学习有些疏漏。本周工作中学习了一些简单的RDD的知识，主要是关于RDD分区相关的内容。

文哥的学习日记·2020-01-04 17:33

spark sql学习笔记

caseclassPerson(name:String,age:Int)valrddpeople=sc.textFile("/sparksql/people.txt").map(_.split(",")

felix_feng·2020-01-03 19:14

大数据架构之数据处理

在此基础上，还提出了hive,pig,impala,sparksql等工具。MapReduce：1.分割Datasplitting:数据分片发送到Mapper。

_Hook_·2020-01-03 16:10

使用SparkSql进行表的分析与统计

背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid

starqiu·2020-01-02 13:00

4.Apache Spark的工作原理

ApacheSpark的工作原理1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming

全能程序猿·2020-01-01 06:49

201、Spark 2.0之Structured Streaming：wordcount入门案例

StructuredStreamingstructuredstreaming是一种可伸缩的、容错的、基于SparkSQL引擎的流式计算引擎。

ZFH__ZJ·2020-01-01 05:50

SparkSQL读取HBase数据

这里的SparkSQL是指整合了Hive的spark-sqlcli（关于SparkSQL和Hive的整合，见文章后面的参考阅读）.本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler

Alukar·2020-01-01 01:26

184、Spark 2.0之Spark 2.x与1.x对比以及分析

Spark2.x与1.x对比Spark1.x：SparkCore（RDD）、SparkSQL（SQL+Dataframe+Dataset）、SparkStreaming、SparkMLlib、SparkGraphxSpark2

ZFH__ZJ·2019-12-31 21:48

Spark SQL 使用指北

简介sparkSQL是为了让开发人员摆脱自己编写RDD原生代码而产生的，只需要写一句SQL语句或者调用API，进行查询或实现更复杂的数据分析，使得开发变得更简洁。

博弈史密斯·2019-12-31 00:51

7.Spark数据读取与保存

SparkSQL中的结构化数据源SparkSQL模块，它针对包括JSON和ApacheHive在内的结构化数据源，为我们提供了一套更加简洁高效的API。

泊牧·2019-12-30 05:17

Spark文档 - SQL编程指南

预览SparkSQL是Spark用于结构化数据处理的模块。不同于基本的RDDAPI，SparkSQLAPI提供了更多有关数据和计算的机构化信息。SparkSQL使用这些信息执行优化。

sungoshawk·2019-12-29 17:37

Specified key was too long; max key length is 767 bytes。

问题：sparksql连接hive的元数据（mysql库）时报错：Specifiedkeywastoolong;maxkeylengthis767bytes。

Sx_Ren·2019-12-29 12:43

Parquet与ORC：高性能列式存储格式

越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、SparkSQL

blablablala·2019-12-29 05:57

Spark的数据戏法

认真使用SparkSQL,交互性探索结构化和半结构化数据.SparkSQL的基础数据结构是Sparkdataframe，它受到了PythonPandasdataframe和Rdataframe的启发.这是一个强大

abel_cao·2019-12-28 11:32

是时候学习真正的 spark 技术了

sparksql可以说是spark中的精华部分了，我感觉整体复杂度是sparkstreaming的5倍以上，现在spark官方主推structedstreaming，sparkstreaming维护的也不积极了

捌跃科技3343874032·2019-12-27 22:13

总结：Hive，Hive on Spark和SparkSQL区别

HiveonMapreduceHive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一些操作可以看这篇笔记：新手的Hive指南，至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结HiveonMapreduce执行流程这里写图片描述执行流程详细解析Step1：UI(userinterface)调用executeQuery接口，发送HQL查询语句给Dr

mrlevo520·2019-12-27 06:36

70、Spark SQL之Hive数据源复杂综合案例实战

Hive数据源实战SparkSQL支持对Hive中存储的数据进行读写。操作Hive中的数据时，必须创建HiveContext，而不是SQLContext。

ZFH__ZJ·2019-12-26 20:39

[flow]Flume+SparkStreaming+Kafka已经发展为一个比较成熟的实时日志收集与计算架构

SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计–lxw的大数据田地http://lxw1234.com/archives/2015/11/552.htm关键字：SparkSQL

葡萄喃喃呓语·2019-12-26 18:13

每日一读 12.07

SparkSQL案例介绍与编程实现http://www.aboutyun.com/thread-23469-1-1.html––1、SparkSQL/DataFrame如何理解？

Vicor·2019-12-26 09:37

基于Scala的产品开发实践

基于目前的应用场景，主要使用了SparkSQL，目前使用的版本为Spark1.5.0。我们有计划去同步升级Spark最新版本。在研发期间，我们从Spark1.4升级到1.5，经过性

_张逸_·2019-12-25 23:24

推荐频道

sparkSQL

分布式 SQL 引擎

Spark SQL中Join常用的几种实现

mlsql流任务实现distinct

SparkSQL学习笔记

[译]大数据分析平台搭建教程：基于Apache Zeppelin Notebook和R的交互式数据科学

SparkSQL 调优

SparkSQL 如何自定义函数

寒假第十天

大三寒假生活8

寒假学习进度-5

Spark SQL 简介

「Spark」Spark SQL Thrift Server运行方式

「Spark」Spark SQL Thrift Server运行方式

SparkSQL 疫情Demo练习

1 Spark Streaming 透彻理解之一

spark学习笔记

Spark SQL实现遍历带父子id的树状结构表数据，生成带层级关系的维表数据

Spark核心技术与高级应用

Spark读写ES

spark-submit 说明

Pyspark基础整理

spark sql 调试技巧--内置udf查看

【2018-04-10】【2.1.1】spark sql操作mysql和hdfs

spark大数据架构初学入门基础详解

Spark的那些事(四) java操作kudu全示例(含sparksql)

BigData－“基于代价优化”究竟是怎么一回事？

【2018-04-09】【2.1版本】spark sql 读源码 notes

使用PySpark编写SparkSQL程序查询Hive数据仓库

面试系列：如何让你的spark sql运行的更快一些？

Spark通过修改DataFrame的schema给表字段添加注释

Spark学习记录|RDD分区的那些事

spark sql学习笔记

大数据架构之数据处理

使用SparkSql进行表的分析与统计

4.Apache Spark的工作原理

201、Spark 2.0之Structured Streaming：wordcount入门案例

SparkSQL读取HBase数据

184、Spark 2.0之Spark 2.x与1.x对比以及分析

Spark SQL 使用指北

7.Spark数据读取与保存

Spark文档 - SQL编程指南

Specified key was too long; max key length is 767 bytes。

Parquet与ORC：高性能列式存储格式

Spark的数据戏法

是时候学习真正的 spark 技术了

总结：Hive，Hive on Spark和SparkSQL区别

70、Spark SQL之Hive数据源复杂综合案例实战

[flow]Flume+SparkStreaming+Kafka已经发展为一个比较成熟的实时日志收集与计算架构

每日一读 12.07

基于Scala的产品开发实践