sparkSQL 第52页

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错了。

本资料来自Workday的软件开发工程师JiannengLi在SparkSummitNorthAmerica2020的《OnImprovingBroadcastJoinsinSparkSQL》议题的分享

过往记忆·2020-07-10 05:35

Spark 3.0 自适应查询优化介绍，在运行时加速 Spark SQL 的执行性能

多年以来，社区一直在努力改进SparkSQL的查询优化器和规划器，以生成高质量的查询执行计划。

过往记忆·2020-07-10 05:34

Spark SQL 在字节跳动的核心优化实践

以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀，《字节跳动在SparkSQL上的核心优化实践》。团队介绍数据仓库架构团队负责数据仓库领域架构设计，支持字节跳动几乎所有产品

过往记忆·2020-07-10 05:03

sparkSQL 统计TopN

原始数据如下：需求：按天统计uid。main方法：objectTopNStatJob{defmain(args:Array[String]):Unit={valspark=SparkSession.builder().appName("TopNStatJob").config("spark.sql.sources.partitionColumnTypeInference.enabled","fal

vincent_duan·2020-07-10 05:37

Spark Streaming java实现简单例子(一)

1.背景：之前已经学习过SparkSQL的相关知识，现在开始对Spark的另一模块Streaming部分进行学习。

玖月启程·2020-07-10 04:25

Spark SQL小文件问题在OPPO的解决方案

SparkSQL小文件是指文件大小显著小于hdfsblock块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈，对任务的稳定和集群的维护会带来极大的挑战。

OPPO互联网技术·2020-07-10 03:49

sparkSql动态插入hive分区表

前提条件：hive中创建分区表，并指定分区键createtabletest(idstirng)partitionedby(namestring)storedasorc;创建sparksession，不需要认证的话去掉config中内容SparkSessionss=SparkSession.builder().appName("test").master("local[2]".enableHiveS

麦田里的虫子·2020-07-10 03:39

postgreSQL 修改字段类型为geometry

代码中用sparksql将数据存储了，geomtry的值已经转换为了16进制字符串geometry处理为WKB字符的代码：if(fldName.equalsIgnoreCase(Const.pg_field_geomtry

tanju_997·2020-07-10 03:02

mysql通过字符串计算hashcode更新到原表和多表关联优化

mysql通过字符串计算hashcode更新到原表和多表关联优化一.需求描述现有表a，要求通过每条数据中的三个字段计算hashcode值更新到原表做为shopid.二.第一种做法最好的方式是通过sparksql

tang_xiaotang·2020-07-10 03:51

第62课：SparkSQL下的Parquet使用最佳实践和代码实践学习笔记

第62课：SparkSQL下的Parquet使用最佳实践和代码实践学习笔记本期内容：1SparkSQL下的Parquet使用最佳实践2SparkSQL下的Parquet实战一：SparkSQL下的Parquet

梦飞天·2020-07-10 02:01

SparkSQL基于DataSourceV2自定义数据源

SparkSQL基于DataSourceV2自定义数据源版本说明：Spark2.3前言：之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用，总的来说SparkSQL支持的数据源还是挺丰富的

shirukai·2020-07-10 02:47

浪尖以案例聊聊spark3的动态分区裁剪

SparkSql中外连接查询中的谓词下推规则动态分区裁剪比谓词下推更复杂点，因为他会整合维表的过滤条件，生成filterset，然后用于事实表的过滤，从而减少join。

大数据星球-浪尖·2020-07-10 01:48

源码:Spark SQL 分区特性第一弹

头条号上说过近期分享SparkSQL系列文章，前面在头条号上分享了DatasetAPI的基本操作和复杂操作，不知道下面大家有没有自己测试一下。

大数据星球-浪尖·2020-07-10 01:48

Spark-SQL简介

JiaThis石山园博客园首页新闻新随笔联系管理订阅随笔-83文章-0评论-140Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介【注】该系列文章以及使用到安装包/测试数据可以在

reb12345reb·2020-07-10 01:53

Spark Structured Streaming快速入门（详解）

structured-streaming-programming-guide.html简单来说SparkStructuredStreaming提供了流数据的快速、可靠、容错、端对端的精确一次处理语义，它是建立在SparkSQL

Mcy2017·2020-07-09 23:45

Kafka Java API使用Demo

pom.xml：4.0.0cn.just.shinelonSparkSql_Proj1.0-SNAPSHOT2008scala-tools.orgScala-ToolsMaven2Repositoryhttp

不清不慎·2020-07-09 23:46

延云YDB&&YA100安装部署文档

Ya100:大数据加速器：SparkSQL的一种新的存储格式。Ya100比Parquet格式快5~100倍.任意维度组合,过滤，万亿数据秒级响应。

qq_33160722·2020-07-09 22:51

Spark2.x 快速入门教程 5

Spark处理多种数据源一、实验介绍1.1实验内容SparkSQL通过DataFrame接口可以支持Parquet、JSON、Hive等数据源，将DataFrame注册为临时视图，可以允许你在数据上运行

oxuzhenyi·2020-07-09 21:57

大数据实战：基于Spark SQL统计分析函数求分组TopN

DemonHunter211·2020-07-09 18:54

记录oracle回写的几个解决方案

首先说下我们的需求，是将hive的表进行回写入oracle，必须使用sparksql这种形式，所以就不考虑sqoop，集群的大数据平台没有sqoop组件。

deepthinkers·2020-07-09 18:56

ApacheSpark3.0动态分区裁剪

ApacheSpark3.0动态分区裁剪静态分区裁剪（StaticPartitionPruning）sparksql在执行查询的时候根据过滤条件实现谓词下推，分区剪裁，跳过不必要的分区，减少读取数据量select

github_28583061·2020-07-09 16:05

半小时，利用FEDB将你的Spark SQL模型变为在线服务

SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用，比如在金融行业的反欺诈，媒体行业的新闻推荐，能源行业管道检测，而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用

范式AI云·2020-07-09 14:23

Spark 3.0发布啦，改进SQL，弃Python 2，更好的兼容ANSI SQL，性能大幅提升

Spark3.0中的SparkSQL是这个版本中

老夫科技说·2020-07-09 14:57

sparksql 对MongoDB数据的读取(scala版本)

最近折腾sparksql,正好有需求,需要读取MongoDB的数据,在网上查找后,能顺利用sparksql读取MongoDB的数据.记录下添加依赖org.apache.sparkspark-core_2.112.1.3org.apache.sparkspark-sql

a904364908·2020-07-09 12:42

一文了解 Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pruning）

静态分区裁剪（StaticPartitionPruning）用过Spark的同学都知道，SparkSQL在查询的时候支持分区裁剪，比如我们如果有以下的查询：SELECT*FROMSales_iteblogWHEREday_of_week

过往记忆·2020-07-09 09:58

上海沙龙回顾 | 字节跳动在Spark SQL上的核心优化实践

以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀，《字节跳动在SparkSQL上的核心优化实践》。团队介绍数据仓库架构团队负责数据仓库领域架构设计，支持字节跳动几乎所有产品

字节跳动技术团队·2020-07-09 07:21

上海沙龙回顾 | Redis 高速缓存在大数据场景中的应用

字节跳动技术团队·2020-07-09 07:51

大数据技术分享：SparkSQL访问Hive遇到的问题及解决方法

需要先将hadoop的core-site.xml，hive的hive-site.xml拷贝到project中测试代码报错查看源码解决方法将$HIVE_HOME/lib下的spark-hive_2.11-2.4.2.jar与spark-hive-thriftserver_2.11-2.4.2.jar添加到project中继续报错查看源码进入ConfVars发现ConfVars中定义的变量并没有MET

xinxindsj·2020-07-09 02:58

快学Big Data -- Spark SQL总结（二十四)

SparkSQL总结概述SparkSql是用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

小徐xfg·2020-07-09 01:44

地铁译：Spark for python developers ---Spark的数据戏法

认真使用SparkSQL,交互性探索结构化和半结构化数据.SparkSQL的基础数据结构是 Sparkdataframe，Sparkdataframe受到了PythonPandas dataframe和

半吊子全栈工匠·2020-07-09 00:42

SparkSQL启动报错：A read-only user or a user in a read-only database is not permitted to disable ...

2018-05-1814:58:07WARNNativeCodeLoader:62-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2018-05-1814:58:07INFOHiveMetaStore:589-0:Openingrawstorewithimplemen

myz95·2020-07-08 20:24

【Python实战】Pandas：让你像写SQL一样做数据分析（一）

Pandas把结构化数据分为了三类：Series，1维序列，可视作为没有column名的、只有一个column的DataFrame；DataFrame，同SparkSQL中的DataFrame一样，其概念来自于

weixin_34249678·2020-07-08 17:35

Spark MLlib GraphX

Spark课堂笔记Spark生态圈：SparkCore：RDD（弹性分布式数据集）SparkSQLSparkStreamingSparkMLLib：协同过滤，ALS，逻辑回归等等-->机器学习SparkGraphx

Rki-dor·2020-07-08 13:07

Spark-Streaming进阶与Spark优化

Spark课堂笔记Spark生态圈：SparkCore：RDD（弹性分布式数据集）SparkSQLSparkStreamingSparkMLLib：协同过滤，ALS，逻辑回归等等-->机器学习SparkGraphx

335046781·2020-07-08 13:33

sparkSQL自定义数据源

sparkSQL自定义数据源创建hbase数据源表创建Hbase的数据保存表自定义SparkSQL的数据源读取Hbase数据以及将分析结果spark读取hbase的数据时，可以先使用newAPIHadoopRDD

子不语归来·2020-07-08 08:21

cdh5.9添加sparksql cli直接操作hive

由于项目需要，需要在cloudera的spark中直接用sparksql操作hive，但是cloudera的spark中没有sparksqlcli（也就是没有spark-sql命令），有关解决方案网上比较多

tianjun2012·2020-07-08 07:19

Spark SQL操作hive报错处理

SparkSQL操作hive报错处理总结：1：启动hive的metastore服务2：报错后加入依赖包spark-hive_2.123：创建SparkSession加入.enableHiveSupport

Rachel_Channing·2020-07-08 05:32

spark快速大数据分析之数据读取与保存

spark生态常见三种数据源：文件格式与文件系统，sparkSQL中的结构化数据源，数据库与键值存储2文件格式a.0....逗号分隔值CSV与制表符分隔值a.文本文件------非结构化b.JSON--

love others as self·2020-07-08 05:08

Spark Sql

1、SparkSql概述1.1混乱的前世今生先出现MapReduce，后本着sqlonmr的思路，产生了Hive。

ONEKING777·2020-07-08 03:23

Spark超简单入门

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStream

喜讯XiCent·2020-07-08 02:50

大数据笔记

Zookeeper分布式协调服务Hive数据仓库/数据分析Flume数据采集Spoop数据迁移HBaseNoSql:实现百万数据级的毫秒级操作Sparkkafka消息队列Scala函数式编程语言SparkRDDSparkSqlSparkStreamingSparkCore

qq_40220816·2020-07-08 00:52

Spark学习总结

Sparkcore、SparkSQL、SparkStreaming、SparkMLlib、SparkGraphx4.Spark的核心数据模型？

从一点一滴做起·2020-07-08 00:08

SparkSql学习之DataFrame

spark中几种数据类型:spark数据处理的过程，就是将数据以某种格式（txt,json,csv,parquet,mysql,hive,Hbase）导入，也就是read过程，对数据进行一定的处理之后，以用户想要的格式导出，也就是write过程。RDDDataFrameDataset其中RDD可转化为DataFrame，DataFrame可以转化为Datasets,其中Datasets时静态类型（

qq_35660280·2020-07-07 22:50

Spark概念及使用简介

更快更容易使用除了Java之外，提供了Scala、Python、R的API；好用的库基于SparkCore提供了SparkSQL、SparkStreaming、MLib、Graph

漂泊的胡萝卜·2020-07-07 17:39

Spark Core 解析：RDD

引言SparkCore是Spark的核心部分，是SparkSQL，SparkStreaming，SparkMLlib等等其他模块的基础,SparkCore提供了开发分布式应用的脚手架，使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现

liam08·2020-07-07 13:52

半小时，将你的Spark SQL模型变为在线服务