sparkSQL 第56页

Spark SQL系列------1. Spark SQL 物理计划的Shuffle实现

SparkSQL物理计划要到Spark-core执行，需要将SparkSQL物理计划转化成RDD，并且建立RDD之间的依赖关系。

heayin123·2020-06-27 04:30

《从0到1学习spark》-- spark前世今生

2009年诞生于加州大学伯克利分校AMPLab2010年开源2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL

小强的进阶之路·2020-06-27 04:29

Presto、Impala性能比较

下面是Presto、Impala这两种典型的内存数据库的简单测试比较，当然这种内存数据库类似的还有sparksql,这种数据库在大数据量，多表关联查询时，会展现出自己的优势，下面是一组impala和presto

TracyGao01·2020-06-27 04:23

spark－概念

本文长篇介绍了spark基本概念和sparkStreaming、sparksql请仔细阅读，红色标注的是我认为比较重要的部分。

双斜杠少年·2020-06-27 03:27

SparkSQL中的内置函数

使用SparkSQL中的内置函数对数据进行分析，SparkSQLAPI不同的是，DataFrame中的内置函数操作的结果是返回一个Column对象，而DataFrame天生就是"Adistributedcollectionofdataorganizedintonamedcolumns

_水木_·2020-06-27 03:47

hive 文件存储parquet格式, sparkSql解析部分字段为null

hive版本2.1.0，hdfs上同一份数据（1）用hive建表，部分字段hive读取有值，sparksql读取值为nullCREATEEXTERNALTABLEbusiness_log.rule_business_log2

蓝天688·2020-06-27 02:38

Spark MLlib中基于DataFrame的 pipeline介绍

DataFrame：这个MLAPI使用SparkSQL的DataFrame作为一个ML数据集，它可以容纳各种数据类型。例如，aDataFrame具有可以存储文本，特征向量，真实标签和预测值的不

knowfarhhy·2020-06-27 02:14

Spark机器学习数据流水线

在之前的“用ApacheSpark做大数据处理”系列文章中，我们学习了ApacheSpark框架，介绍了Spark和它用作大数据处理的不同库（第一部分），SparkSQL库（第二部分），Spark流（第三部分

rolin-刘瑞·2020-06-26 23:05

使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时，遇到一个小问题，我在scala代码里，使用sparksql访问hive的表，然后根据一批id把需要的数据过滤出来，本来是非常简单的需求直接使用下面的伪SQL即可：

三劫散仙·2020-06-26 22:53

hive内部分区表(ORC格式)新增字段后出现的问题

在新增字段后的新分区内查询数据正常，在新增字段后的旧分区内查询数据异常2、分区删不掉，一直卡着不动3、在执行插入分区的动作后，数据文件中已经有新字段值了，但是在查询的时候新字段的值还是显示为null4、利用sparkSQL

听见下雨的声音hb·2020-06-26 21:02

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

1．JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。

to.to·2020-06-26 20:06

大数据IMF传奇行动绝密课程第100-101课：使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例

使用SparkStreaming+SparkSQL+Kafka+FileSystem综合案例1、项目分析流程图2、项目代码实战Flumesink到Kafka需要一个jar包支持https://github.com

tom_8899_li·2020-06-26 20:29

入门大数据---SparkSQL联结操作

一、数据准备本文主要介绍SparkSQL的多表连接，需要预先准备测试数据。

一线大数据·2020-06-26 17:00

入门大数据---SparkSQL常用聚合函数

一、简单聚合1.1数据准备//需要导入sparksql内置的函数包importorg.apache.spark.sql.functions.

一线大数据·2020-06-26 17:00

入门大数据---SparkSQL外部数据源

一、简介1.1多数据源支持Spark支持以下六个核心数据源，同时Spark社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。CSVJSONParquetORCJDBC/ODBCconnectionsPlain-textfiles注：以下所有测试文件均可从本仓库的resources目录进行下载1.2读数据格式所有读取API遵循以下调用格式：//格式DataFrameReader.fo

一线大数据·2020-06-26 16:00

基于Flink1.8 深入理解Flink Sql执行流程 + Flink Sql语法扩展

FlinkSQL引擎：Calcite简述FlinkTable/SQL执行流程以FlinkSQLDemo为切入，结合调试过程，深入理解FlinkStreamingSQLCodeGenflink语法扩展对比SparkSQL

super_man_0820·2020-06-26 16:47

Spark-core之RDD核心概念

一、Spark包括什么spark的核心是SparkCore，其中上面的SparkSql对接的是Hive等结构化查询，SparkStreaming是对接的流式计算，后面的那两个也是主要用在科学任务中，但是他们的基础都是

student__software·2020-06-26 15:15

Sparksql 基本使用

packagecom.spark.week3importorg.apache.spark.sql.SparkSessionobjectOne{System.setProperty("hadoop.home.dir","D:/soft/hadoop/hadoop-2.7.3")defmain(args:Array[String]):Unit={valspark=SparkSession.builde

star5610·2020-06-26 14:33

大数据工程师技能图谱

机器学习工具MahoutSparkMlibTensorFlow(Google系)AmazonMachineLearningDMTK(微软分布式机器学习工具)数据分析/数据仓库(SQL类)PigHivekylinSparkSQL

唐大麦·2020-06-26 14:22

SparkSQL+RDD计算句子相似性！

Spark版本:2.1Python版本：2.7.12之前想做一个检索式的智能对话，其实只用SparkRDD是完全可以的，但是想实用一下SparkSQL，所以有点强搬硬套的感觉，不过没关系，干货就是干货，

文哥的学习日记·2020-06-26 13:56

第70课:SparkSQL内置函数解密与实战学习笔记

第70课:SparkSQL内置函数解密与实战学习笔记本期内容：1SparkSQL内置函数解析2SparkSQL内置函数实战SparkSQL的DataFrame引入了大量的内置函数，这些内置函数一般都有CG

梦飞天·2020-06-26 13:46

基于SparkSql的日志分析实战

目录日志数据内容用户行为日志分析的意义离线数据处理流程需求分析数据清洗解析访问日志使用github上的开源项目对日志进行统计分析统计最受欢迎的TOPN的视频访问次数按照地市统计imooc主站最受欢迎的TOPN课程按流量统计imooc主站最受欢迎的TOPN课程调优点EChart展示图形化界面静态数据展示动态数据展示日志数据内容访问系统属性，操作系统，浏览器访问特征，点击的url,从那个url跳转过来

Rachel_Channing·2020-06-26 12:31

SparkSQL------SQL，DataFrame，DataSet

网上查了点牛人资料，给大家做个总结归类，大致如下：相比于SparkRDDAPI，SparkSQL包含了对结构化数据和在其上的运算的更多信息，SparkSQL使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便

汪本成·2020-06-26 11:42

入门大数据---SparkSQL_Dataset和DataFrame简介

一、SparkSQL简介SparkSQL是Spark中的一个子模块，主要用于操作结构化数据。

一线大数据·2020-06-26 10:00

hive数据导入到hbase的方式总结

2.使用sparksql操作完hive处理好之后入hbase

sheep8521·2020-06-26 08:13

3.如何安装Apache Spark

ApacheSpark1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming

全能程序猿·2020-06-26 07:10

Spark SQL从入门到精通

本文主要是帮助大家从入门到精通掌握sparksql。篇幅较长，内容较丰富建议大家收藏，仔细阅读。更多大数据，spark教程，请点击阅读原文加入浪尖知识星球获取。微信群可以加浪尖微信158570986。

大数据星球-浪尖·2020-06-26 05:29

Spark的Ml pipeline

DataFrame：这个MLAPI使用SparkSQL的DataF

大数据星球-浪尖·2020-06-26 05:26

《SparkSQL内核剖析》【Aggregation篇】

这篇文章讨论SparkSQL中聚合相关的内容。聚合表达式我们先来看一条简单的聚合语句df.groupBy("xxx").count("yyy")这样一个聚合查询，在SparkSQL中是怎么表示的呢？

renqHIT·2020-06-26 05:54

Spark SQL基础概述

文章目录第一章SparkSQL概述SparkSQL官方介绍SparkSQL的特点SQL优缺点Hive和SparkSQLSparkSQL数据抽象DataFrameDataSetRDD、DataFrame、

九月木樨·2020-06-26 04:40

hive函数大全

宇下住一横·2020-06-26 03:26

Spark面试汇总

重点）4、请列举Spark的transformation算子（不少于5个）（重点）5、请列举Spark的action算子（不少于5个）（重点）6、简述Spark的两种核心Shuffle（重点）7、简述SparkSQL

千千匿迹·2020-06-26 03:06

【Spark】SparkSQL入门解析（一）

【一】简介(本文部分图片来自网络，侵删)SparkSQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用【二】特点【2.1】易整合SparkSQL

默默走开·2020-06-26 02:37

Spark SQL，如何将 DataFrame 转为 json 格式

用过SparkSQL应该知道，Sparkdataframe本身有提供一个api可以供我们将数据转成一个JsonArray，我们可以在spark-shell里头举个栗子来看一下。

qq_43713668·2020-06-26 02:28

sparksql的三种join实现

sparksql的三种join实现引言Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。

大尾巴狼的觉悟·2020-06-26 02:43

阿里云EMR技术专家 “健身” 浅析Hive/Spark SQL读文件时的输入任务划分

Hive以及SparkSQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口，大大降低了ETL等操作的门槛，也因此在实际生产中有着广泛的应用。

乔治大哥·2020-06-25 22:52

Hive Spark Api 查询、写入、注册UDF函数，SparkSql简单操作

HiveSparkApi查询、写入、注册UDF函数，SparkSql操作HiveSparkinsert/overwriteobjectReadKerberosHive{caseclassEmployee

大大大大大大太阳·2020-06-25 17:40

SparkSql篇3：SparkSql读写kudu

SparkSql篇3：SparkSql读写kuduspark操作kudu的方式有很多，spark封装了KuduContext，里面有kudu的增删改查本文主要正对sparksql,利用外部数据源方式，直接从

叮咚菜鸟许某人·2020-06-25 14:30

sparksql的agg函数，作用：在整体DataFrame不分组聚合

1、agg(expers:column*)返回dataframe类型，同数学计算求值df.agg(max("age"),avg("salary"))df.groupBy().agg(max("age"),avg("salary"))2、agg(exprs:Map[String,String])返回dataframe类型，同数学计算求值map类型的df.agg(Map("age"->"max","s

邢小成·2020-06-25 12:45

1.sparksql读取sql的相关处理操作

19/11/1220:32:53INFOCodeGenerator:Codegeneratedin12.9619ms19/11/1220:32:53INFOCodeGenerator:Codegeneratedin11.6207ms19/11/1220:32:53INFOMemoryStore:Blockbroadcast_2storedasvaluesinmemory(estimatedsize

qq_35561207·2020-06-25 09:08

1.sparksql的通过 case class 创建 DataFrames（反射）

importorg.apache.spark.sql.SQLContextimportorg.apache.spark.{SparkConf,SparkContext}objectTestDataFrame1{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("RDDToDataFrame").setMaster

qq_35561207·2020-06-25 09:37

sparksql之通过 structType 创建 DataFrames（编程接口）

importorg.apache.avro.generic.GenericData.StringTypeimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.types.{IntegerType,StructField,StructType}importorg.apache.spark.sql.{DataFrame,Row,SQLCont

qq_35561207·2020-06-25 09:37

葵花宝典--SparkSQL

一、概述1、定义用于处理结构化数据的spark模块，提供了结构化数据和执行计算的更多信息运行时讲sparksql转换成RDD进行运算，比我们自己写的RDD效率要高，它进行了优化；并且提供了两个抽象类：DadaFrame

张薄薄·2020-06-25 07:45

Hive之快速入门以及安装部署

1.生产中常使用的SQLonhadoop框架主流sqlonhadoop有Hive、SparkSQL、Phonix扩展1：hadoop由hdfs，yarn，mr组成，守护进程nn与rm容易出现单点故障，而生产中要求是任何一个流程都要考虑到单点故障

qq_32641659·2020-06-25 06:10

支持在线大数据SQL查询平台开源项目

一、XQL/IQL基于SparkSQL实现了一套即席查询服务，具有如下特性：优雅的交互方式，支持多种数据源/接收器，多数据源混算spark常驻服务，基于zookeeper的引擎自动发现负载均衡，多个引擎随机执行多会话模式实现并行查询采用

灬点点·2020-06-25 06:21

SparkSQL 统计某天每个用户访问页面次数前N的的页面

前两天有小老弟面试遇到如下问题：那应该如何完成这个SQL语句的书写呢？测试数据：valrdd=spark.sparkContext.makeRDD(List(("2018-01-01",1,"www.baidu.com","10:01"),("2018-01-01",2,"www.baidu.com","10:01"),("2018-01-01",1,"www.sina.com","10:01")

高志遠·2020-06-25 05:05

Spark技术体系与MapReduce，Hive，Storm几种技术的关系与区别

大数据体系架构：Spark内存计算与传统MapReduce区别：SparkSQL与Hive的区别:SparkSQL替换的是Hive的查询引擎，Hive是一种基于HDFS的数据仓库，并且提供了基于SQL模型的

Scathon·2020-06-25 05:50

MongoDB与Spark整合的环境搭建

Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了SparkSQL

红警专家·2020-06-25 05:21

Spark SQL和 presto 访问数据源的对比分析

直观感受是使用SparkSQL比通过presto写SQL的查询速度更快开发python程序访问Presto可以借助pyhive工具文章目录SparkSQL是什么？

大数据AI笔记·2020-06-25 04:58

Flume 入门

（SparkSQL可代替）如果日志在其他机器上，就有了Flume的产生；Flume就是干日志采集的事情。2）FromoutsideToinside：如何使用集群外的数据，得先抽取到Hadoop集群中。

qq_30130043·2020-06-25 04:01

推荐频道

sparkSQL