sparkSQL 第77页

【Spark篇】---SparkSQL on Hive的配置和使用

一、前述SparkonHive：Hive只作为储存角色，Spark负责sql解析优化，执行。二、具体配置1、在Spark客户端配置HiveOnSpark在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml：配置hive的metastore路径hive.metastore.uristhrift://node1:90832、启动Hive的metastore服务

L先生AI课堂·2018-02-09 16:26

spark sql 的应用实践

背景介绍目前spark主要应用在streaming、ETL和ML场景上，本文主要是分享我们ETL场景从hiveSQL到sparkSQL的迁移实践。

xiaoL_clo·2018-02-08 15:29

数据挖掘工具---Spark SQL使用

SparkSQL你需要知道的十件事来源：SparkSQL使用场景Ad-hocqueryingofdatainfilesETLcapabilitiesalongsidefamiliarSQLInteractionwithexternalDatabasesScalablequeryperformancewithlargerclustersLiveSQLanalyticsoverstreamingdat

diggerTT·2018-02-07 15:37

SparkSQL创建数据库报错

错误信息org.apache.spark.sql.AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(message:Unabletocreatedatabasepathfile:/D:/Java_Tools/spark/bin/spark-warehouse/test2.db,faile

小小Tiny·2018-02-07 14:02

(译) pyspark.sql.DataFrame模块

classpyspark.sql.DataFrame(jdf,sql_ctx)分布式的列式分组数据集(1.3版本新增)一个DataFrame对象相当于SparkSQL中的一个关系型数据表,可以通过SQLContext

cjhnbls·2018-02-07 01:33

Hive函数实战

1、数据介绍首先我们产生我们的数据,使用sparksql来产生吧：valdata=Seq[(String,String)](("{\"userid\":\"1\",\"action\":\"0#222\

文哥的学习日记·2018-02-06 19:00

spark常见问题处理

1、sparkthriftserver报以下错误，其他诸如hive/sparksql等方式均正常ERRORActorSystemImpl:Uncaughtfatalerrorfromthread[sparkDriverActorSystem-akka.actor.default-dispatcher

ZhaoYingChao88·2018-02-06 16:36

SparkSQL

SparkSQL的前身是Shark，它抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-MemoryColumnarStorage)、Hive兼容性等,重新开发了SparkSQL

Zzreal·2018-02-03 19:33

Spark SQL函数之分组排序

需求：根据class分组对组内的age进行排序原表结果SparkSQL:SELECTname,age,class,row_number()over(partitionbyageorderbyclass)

果果的爸爸·2018-02-02 15:13

sparkSQL结合hive的入门程序

学习sparkSQL时最简单的一个示例，是用json格式的文件充当hive表，并注册为临时表，然后用hiveQL的API来查询得出需要的结果。

gamedevv·2018-01-30 01:33

sparkSQL结合hive的入门程序

学习sparkSQL时最简单的一个示例，是用json格式的文件充当hive表，并注册为临时表，然后用hiveQL的API来查询得出需要的结果。

gamedevv·2018-01-30 01:33

Spark程序开发规范

这是通过命令行传入参数的友好性提示和规范编码就体现出来了，下面我将整理【Scala语言开发Spark程序的常用模板】packagespark.sparkSQLobjectSparkSQLTwitter{

gamedevv·2018-01-29 15:44

Scala Spark Map DataFrame Missing Paramenter Type

在学习sparkSQL时，按照书中的例子敲了代码，但是报出maprow:MissingParamenterType的错误，意思就是没有指定row变量的类型。

gamedevv·2018-01-28 20:35

【Spark】SparkSQL针对DataSource表的Cache优化

Spark内部针对DataSource表的查询做了缓存优化，使得在同一任务中多次访问同一张DataSource表场景下可以跳过重复的获取表meta数据过程，以提升表读取性能。缓存的内容是表名和其对应的LogicalRelation。缓存机制：SQL语法解析后进行Analyzer的过程，因为我们关注表的缓存机制，所以只看表分析中的一个关键Rule：ResolveRelations。Analyzer对

PowerMe·2018-01-23 17:03

大数据学习路线（完整详细版）

,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,sparksql

符智生·2018-01-20 12:00

SPARK SQL - update MySql table using DataFrames and JDBC

I'mtryingtoinsertandupdatesomedataonMySqlusingSparkSQLDataFramesandJDBCconnection.I'vesucceededtoinsertnewdatausingtheSaveMode.Append.IsthereawaytoupdatethedataalreadyexistinginMySqlTablefromSparkSQL

dufufd·2018-01-19 08:48

Spark

A.SparkStreamingBMlibCGraphxDSparkR2.下面哪个端口不是spark自带服务的端口(C)A.8080B.4040C.8090D.180803.spark1.4版本的最大变化(B)AsparksqlRelease

徐茂盛·2018-01-17 17:16

spark大数据架构初学入门基础详解

Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)

三万_chenbing·2018-01-16 14:05

修改CDH进程NN、DN日志输出为JSON格式

我们知道SparkSQL是可以直接读取JSON数据的，如果我们要通过Flume采集日志通过Spark处理后进行可视化。那么将日志改造成JSON后在Spark处理阶段就非常方便了。

A_ChunUnique·2018-01-15 12:42

【SparkSQL】partitionColumn, lowerBound, upperBound, numPartitions的理解

如何加快数据的读取过程利用SparkSQL读取数据库数据的时候，如果数据量很大，那么在读取数据的时候就会花费大量的时间，因此，怎么让数据并行读取加快读取数据的速度呢？

KingWang_WHU·2018-01-14 09:33

Spark SQL在100TB上的自适应执行实践

作者：汪愈舟俞育才郭晨钊程浩（英特尔），李元健（百度）责编：钱曙光（[emailprotected]）SparkSQL是ApacheSpark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据

·2018-01-13 15:00

Structured Streaming整合kafka

本文介绍一种常用的方式:StructuredStreaming读取kafka数据，并使用sparksql过滤，最终输出到终端。

董云龙·2018-01-11 18:25

pandas

DataFrame，同SparkSQL中的DataFrame一样，其概念来自于R语言，为多column并schema化的2维结

智勇双全的小六·2018-01-10 19:24

【大数据】最新大数据学习路线（完整详细版，含整套教程）

,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,sparksql

符智生·2018-01-05 20:06

【大数据】最新大数据学习路线（完整详细版，含整套教程）

,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,sparkcore,sparksql

符智生·2018-01-05 20:06

SparkSql 中外连接查询中的谓词下推规则

SparkSqlSparkSql是架构在spark计算框架之上的分布式Sql引擎，使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理，提供的DSL可以直接使用scala

opensure·2018-01-04 19:55

JavaSpark-sparkSQL-介绍

SparkSession.builder()：importorg.apache.spark.sql.SparkSession;SparkSessionspark=SparkSession.builder().appName("JavaSparkSQLb

M99的羽子·2018-01-03 00:51

spark SQL（六）性能调整

sparkSQL性能调整对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。

junzhou134·2017-12-30 14:46

spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载

sparkSQLParquet文件的读取与加载是由许多其他数据处理系统支持的柱状格式。SparkSQL支持阅读和编写自动保留原始数据模式的Parquet文件。

junzhou134·2017-12-30 12:00

spark SQL（三）数据源 Data Source----通用的数据加载/保存功能

SparkSQL的数据源------通用的数据加载/保存功能SparkSQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作，也可以用来创建临时视图。

junzhou134·2017-12-30 11:25

Hive部署

什么是HiveHive是一个翻译器，它可以将SQL语句翻译成一个MapReduce程序常见的数据分析引擎：Hive,Pig,Impala,SparkSQLHive是一个基于Hadoop之上的数据分析引擎

菜鸟的征程·2017-12-29 16:53

使用Spark SQL的临时表解决一个小问题

qindongliang1922·2017-12-28 18:00

Spark SQL及实例

什么是SparkSQLSparkSQL是ApacheSpark用于处理结构化数据的模块。SparkSQL允许使用SQL或熟悉的DataFrameAPI查询Spark程序内的结构化数据。

moledyzhang·2017-12-27 19:54

Spark Python API Docs(part two)

pyspark.sqlmoduleModulecontextSparkSQL和DataFrames中的重要类：pyspark.sql.SparkSession-DataFrame和SQL功能的主要入口点

盗梦者_56f2·2017-12-25 20:28

SparkSQL操作Hive表数据

启动Hadoop：./sbin/start-all.sh启动Spark-Shell：./bin/spark-shell--masterlocal[2]scala>spark.sql("showtables").show+--------+---------+-----------+|database|tableName|isTemporary|+--------+---------+-------

zghgchao·2017-12-24 10:18

Spark编程、RDD 功能介绍、RDD 元素变换、RDD 元素操作、DATAFRAME、SparkSQL

spark中起到driver和worker之间的桥梁的是？SparkContextsc组织rdd之间依赖关系划分stage的是DAGSchedule管理taskSet的是？TaskSchedule说出rdd中多台机上(worker)上执行的懒算子（变换）mapflatMapjoin（两个rdd数据加一起）groupByKeyreduceByKeyfilter说出rdd中一台机上(driver)上执

free97zl·2017-12-23 16:53

Spark DataFrame与RDD互操作

DataFrame与RDD的互操作1.SparkSQL支持将现有的RDDs转换为数据集的两种不同的方法。第一个方法使用反射来推断一个包含特定对象类型的RDD的模式。

zghgchao·2017-12-23 10:37

Spark菜鸟进阶

关于SparkSQL/DataFrame（Spark1.4.1版本）SparkSQL是Spark生态系统里用于处理结构化大数据的模块，该模块里最重要的概念就是DataFrame,Spark的DataFrame

qin_na·2017-12-22 17:31

《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计

《SparkSQL大数据实例开发》9.2综合案例实战——电商网站搜索排名统计9.2.1案例概述本节演示一个网站搜索综合案例：以京东为例，用户登录京东网站，在搜索栏中输入搜索词，然后点击搜索按钮，就能在京东网站搜索用户需要的商品

段智华·2017-12-16 20:27

SparkSql读取数据和插入数据

一、sparksql读写mysql数据1.读取valurl="jdbc:mysql://主机名:端口号"valtableName="db_name"valproperties=newjava.util.Properties

泪痕残·2017-12-11 17:40

SparkSQL的前世今生

SparkSQL的前世今生标签（空格分隔）：spark学习HiveSQL早期都是使用hiveSQL,hiveSQL的执行流程：1.语法解析2.生成逻辑计划3.优化4.生成物理计划通过以上流程将hiveSQL

Addroc_Sue·2017-12-09 20:49

spark-sql(四)---读写elasticsearch数据

sparksql读写elasticsearchsparksql将elasticsearch数据转换成RDD进行计算，测试下sparksql对elasticsearch的读和写的操作。

敲码的汉子·2017-12-07 14:05

Spark Streaming消费kafka,不同topic-join实时统计

前言习惯用了SparkSql,做实时统计的时候,也想用StructuredStreaming.但发现一个特殊情况目前StructuredStreaming(spark2.1.2)不支持两个topicjoin

小白鸽·2017-12-06 15:46

spark2.1 sql 自定义udf以及spark sql api

sparksql自定义udfspark定义视图说明：在dataframe的基础上给出视图名称，dataframe可以来源于jdbc查询结果，也可以是jsonvalspark=SparkSession.builder

snail_knight·2017-12-06 14:03

Spark技术栈学习

Spark比MapReduce快100倍，拥有Java，Scale，Python等API，且支持多种平台（Hadoop,Cloud,Mesos等），能够在一个应用中支持SparkStream（流计算），SparkSQL

MrGeroge·2017-12-05 19:46

使用SparkSQL读取Hbase表

HBase-SparkConnector(在HBase-Spark模块中）利用了在Spark-1.2.0中引入的DataSourceAPI(SPARK-3247)，在简单的HBaseKV存储和复杂的关系型SQL查询之间架起了桥梁，使得用户可以在HBase上使用Spark执行复杂的数据分析工作。HBaseDataframe是一个标准的SparkDataframe，能够与任何其他的数据源进行交互，比如

a_BigData·2017-12-05 17:12

[百度地图]Apache Kylin 在百度地图的实践 - Kyligence

2589/我们团队正需要搭建一套完整的大数据OLAP分析计算平台，用来提供百亿行级数据单条SQL毫秒到秒级的多维分析查询服务，在技术选型过程中，我们参考了ApacheDrill、Presto、Impala、SparkSQL

葡萄喃喃呓语·2017-12-05 13:44

Scala与Java在空值上判定的探讨

本文章探讨Scala语言与Java语言在空值上的区别问题产生背景：在编写Spark任务时采用SparkSQL向Oracle存数据，对RDD与DateFrame进行了去空值（如下但不限于以下几种）处理后仍然会有

陈孜豪·2017-12-04 15:02

Spark 1.6

**RunningModeStandalonemodeProgrammingGuideRDDDevelopSparkprogramInputandOutputSparkSQL,DataFrameandDataSetSparkSQLisaSparkmoduleforstructureddataprocessin

abrocod·2017-12-04 02:01

Spark SQL将数据写入Mysql表的一些坑

最近，在使用SparkSQL分析一些数据，要求将分析之后的结果数据存入到相应的MySQL表中。

chenyulancn·2017-11-30 11:41

推荐频道

sparkSQL

【Spark篇】---SparkSQL on Hive的配置和使用

spark sql 的应用实践

数据挖掘工具---Spark SQL使用

SparkSQL创建数据库报错

(译) pyspark.sql.DataFrame模块

Hive函数实战

spark常见问题处理

SparkSQL

Spark SQL函数之分组排序

sparkSQL结合hive的入门程序

sparkSQL结合hive的入门程序

Spark程序开发规范

Scala Spark Map DataFrame Missing Paramenter Type

【Spark】SparkSQL针对DataSource表的Cache优化

大数据学习路线（完整详细版）

SPARK SQL - update MySql table using DataFrames and JDBC

Spark

spark大数据架构初学入门基础详解

修改CDH进程NN、DN日志输出为JSON格式

【SparkSQL】partitionColumn, lowerBound, upperBound, numPartitions的理解

Spark SQL在100TB上的自适应执行实践

Structured Streaming整合kafka

pandas

【大数据】最新大数据学习路线（完整详细版，含整套教程）

【大数据】最新大数据学习路线（完整详细版，含整套教程）

SparkSql 中外连接查询中的谓词下推规则

JavaSpark-sparkSQL-介绍

spark SQL（六）性能调整

spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载

spark SQL（三）数据源 Data Source----通用的数据 加载/保存功能

Hive部署

使用Spark SQL的临时表解决一个小问题

Spark SQL及实例

Spark Python API Docs(part two)

SparkSQL操作Hive表数据

Spark编程、RDD 功能介绍、RDD 元素变换、RDD 元素操作、DATAFRAME、SparkSQL

Spark DataFrame与RDD互操作

Spark菜鸟进阶

《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计

SparkSql读取数据和插入数据

SparkSQL的前世今生

spark-sql(四)---读写elasticsearch数据

Spark Streaming消费kafka,不同topic-join实时统计

spark2.1 sql 自定义udf以及spark sql api

Spark技术栈学习

使用SparkSQL读取Hbase表

[百度地图]Apache Kylin 在百度地图的实践 - Kyligence

Scala与Java在空值上判定的探讨

Spark 1.6

Spark SQL将数据写入Mysql表的一些坑

spark SQL（三）数据源 Data Source----通用的数据加载/保存功能