sparkSQL 第54页

用Apache Spark进行大数据处理

from:http://www.infoq.com/cn/articles/apache-spark-sqlSparkSQL，作为ApacheSpark大数据框架的一部分，主要用于结构化数据处理和对Spark

iteye_13851·2020-07-02 04:30

解决Spark窗口统计函数rank()、row_number()、percent_rank()的OOM问题

窗口函数功能介绍一个简单的例子一个复杂的例子2.数据量过大时的OOM问题问题及原因解决方法1：用SQL处理解决方法2：转为rdd进行处理解决方法3：将数据量过多的分组进行随机打散，从而近似排序1.窗口函数功能介绍在利用SparkSQL

英国老鼠_·2020-07-02 03:35

SparkSQL自适应执行优化引擎

SparkSQL自适应执行优化引擎背景AdaptiveExecution将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。

github_28583061·2020-07-02 01:07

Flink+Druid构建实时OLAP的探索

方案实时入库SQL支持度Spark+CarbonData支持SparkSQL语法丰富Kylin不支持支持joinFlink+Druid支持0.15以前

banmeng3487·2020-07-01 18:13

（3）Flink学习- Table API & SQL编程

模型类比：MapReduce==>HiveSQLSpark==>SparkSQLFlink==>SQL2、依赖结构所有TableAPI和SQL组件都捆绑在flink-tableMaven工件中。

^果然好^·2020-07-01 17:44

【SparkSQL】partitionColumn, lowerBound, upperBound, numPartitions如何加速数据库抽取（oracle）

在SparkSQL中，读取数据的时候可以分块读取。例如下面这样，指定了partitionColumn，lowerBound，upperBound，numPartitions等读取数据的参数。

大胖头leo·2020-07-01 15:29

SparkSQL 性能调优参数

1，spark.hadoopRDD.ignoreEmptySplits默认是false，如果是true，则会忽略那些空的splits，减小task的数量。2，spark.hadoop.mapreduce.input.fileinputformat.split.minsize是用于聚合input的小文件，用于控制每个mapTask的输入文件，防止小文件过多时候，产生太多的task。3，spark.s

stone-zhu·2020-07-01 15:30

[2.5]详解spark sql用户自定义函数:UDF与UDAF

参考Spark官网王家林DT大数据梦工厂场景UDAF=USERDEFINEDAGGREGATIONFUNCTION上一篇文章已经介绍了sparksql的窗口函数，并知道sparksql提供了丰富的内置函数供猿友们使用

彭宇成·2020-07-01 12:45

2019年新年计划

以下是我的新年目标：一、主要：学习目标：在不准备的情况下能讲清楚每个组件的原理架构、优化方案(知道优劣才懂取舍)，并操作熟练(hdfs、yarn、mapreduce、hbase、hive、sparkcore、sparksql

吾芯向Young·2020-07-01 06:29

基于 Scala 的产品开发实践 | 掘金技术征文

基于目前的应用场景，主要使用了SparkSQL，目前使用的版本为Spark1.5.0。我们有计划去同步升级Spa

weixin_34087503·2020-07-01 05:07

SparkSQL的自适应执行---Adaptive Execution

1背景本文介绍的AdaptiveExecution将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。核心在于两点执行计划可动态调整调整的依据是中间结果的精确统计信息2动态设置ShufflePartition2.1SparkShuffle原理如上图所示，该Shuffle总共有2个Mapper与5个Reducer。每个Mapper会按相同的规则（由Partitioner定义）将自己的数

diaoxie5099·2020-07-01 02:32

spark从入门到放弃三十二:Spark Sql(5)hive sql 简述

文章地址：http://www.haha174.top/article/details/2566881简述SparkSql支持对Hive中存储的数据进行读写。

意浅离殇·2020-06-30 22:00

Spark 3.0 - AQE浅析 (Adaptive Query Execution)

1、前言近些年来，在对SparkSQL优化上，CBO是最成功的一个特性之一。CBO会计算一些和业务数据相关的统计数据，来优化查询，例如行数、去重后的行数、空值、最大最小值等。

Deegue·2020-06-30 20:59

Spark基本架构及运行原理

SparkSQL:Spark处理结构化数据的库，就像HiveSQL,Mysql一样，企业中用来做报表统计。SparkStreaming:实时数据流处理组件，类似Storm。SparkStrea

zxc123e·2020-06-30 20:51

Spark入门必读：核心概念介绍及常用RDD操作

Spark内部提供了丰富的开发库，集成了数据分析引擎SparkSQL、图计算框架GraphX、机器学习库MLlib、流计算引擎SparkStreaming。

大数据v·2020-06-30 19:54

Spark(SparkSql) 写数据到 MySQL中（Spark读取TCP socket/文件）

日萌社人工智能AI：KerasPyTorchMXNetTensorFlowPaddlePaddle深度学习实战（不定时更新）Impala操作/读写Kudu，使用druid连接池Kudu原理、API使用、代码KuduJavaAPI条件查询spark读取kudu表导出数据为parquet文件（sparkkuduparquet）kudu导入/导出数据Kudu分页查询的两种方式map、flatMap(流的

あずにゃん·2020-06-30 17:19

sparksql的agg函数，作用：在整体DataFrame不分组聚合

1、agg(expers:column*)返回dataframe类型，同数学计算求值df.agg(max("age"),avg("salary"))df.groupBy().agg(max("age"),avg("salary"))2、agg(exprs:Map[String,String])返回dataframe类型，同数学计算求值map类型的df.agg(Map("age"->"max","s

zhuiqiuuuu·2020-06-30 17:44

SparkSql--Datafram

1.合并inner,cross,outer,full,full_outer,left,left_outer,right,right_outerfrompyspark.sqlimportRowfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName(‘my_app_name’).enableHiveSupport().ge

Catherine_In_Data·2020-06-30 16:14

Spark SQL中实现Hive MapJoin

在SparkSQL中，目前还不支持自动或者手动使用MapJoin。变通的

刘光华_zhou·2020-06-30 16:57

大数据工程师，需要学习哪些基本技能？

Yarn）04.HBase（JavaAPI操作+Phoenix）05.Hive(Hql基本操作和原理理解）06.Kafka07.Storm08.Scala需要09.Python10.Spark(Core+sparksql

人工智能爱好者·2020-06-30 16:32

spark解决org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

使用sparksql的thriftjdbc接口查询数据时报这个错误Exceptioninthread"main"java.sql.SQLException:org.apache.spark.SparkException

就问你吃不吃药·2020-06-30 14:44

Apache-DolphinScheduler-1.2.1 源码: 编译

其主要目标如下：以DAG图的方式将Task按照任务的依赖关系关联起来，可实时可视化监控任务的运行状态支持丰富的任务类型：Shell、MR、Spark、SQL(mysql、postgresql、hive、sparksql

张伯毅·2020-06-30 14:31

spark基础之spark sql运行原理和架构

一SparkSQL运行架构SparkSQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。

happy19870612·2020-06-30 14:44

spark 将dataframe数据写入Hive分区表

从spark1.2到spark1.3，sparkSQL中的SchemaRDD变为了DataFrame，DataFrame相对于SchemaRDD有了较大改变，同时提供了更多好用且方便的API。

明星it·2020-06-30 13:59

SparkSql 项目实战

第1章准备数据我们这次Spark-sql操作中所有的数据均来自Hive.首先在Hive中创建表,并导入数据.一共有3张表:1张用户行为表,1张城市表,1张产品表CREATETABLE`user_visit_action`(`date`string,`user_id`bigint,`session_id`string,`page_id`bigint,`action_time`string,`sear

zfq-0314·2020-06-30 13:44

OLAP OLTP presto、druid、sparkSQL、kylin的对比分析，如性能、架构等，有什么异同？

https://www.zhihu.com/question/41541395?sort=createdhttps://www.cnblogs.com/andy6/p/6011959.htmlOLTP和OLAP的区别联机事务处理OLTP（on-linetransactionprocessing）主要是执行基本日常的事务处理，比如数据库记录的增删查改。比如在银行的一笔交易记录，就是一个典型的事务。O

OkidoGreen·2020-06-30 12:20

spark-sql中视图关联表结果不匹配问题

在sparkSQL中将计算结果保存为视图，关联其他表后出现结果匹配错误，通过分析发现，是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行，真正执行的时候是需要触发

脆皮软心·2020-06-30 10:00

spark-sql中视图关联表结果不匹配问题

在sparkSQL中将计算结果保存为视图，关联其他表后出现结果匹配错误，通过分析发现，是因为sql语句中使用了表达式row_number()over(orderby1)其实该表达式并没有执行，真正执行的时候是需要触发

菩提本无树，明镜亦非台·2020-06-30 10:00

Parquet与ORC：高性能列式存储格式

越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、SparkSQL

教练_我要踢球·2020-06-30 09:52

Spark--Spark SQL

Spark-Sql介绍及使用SparkSql概述Sparksql的前世今生什么是SparkSql为什么要学习SparkSQLDataFrame什么是DataFrameDataFrame与RDD的区别DataFrame

youAreRidiculous·2020-06-30 08:28

SparkSQL---开窗函数（java）

packagecom.spark.sparksql.save;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext

Star-Technology·2020-06-30 08:27

SparkSQL---UDF（java）

packagecom.spark.sparksql.udfimportorg.apache.spark.sql.types.

Star-Technology·2020-06-30 08:27

SparkStreaming项目实战系列——1.实时流概述

官网关于Spark2.2.0需要以下条件:maven3.3.9+Java8+Spark2.2.01.初识实时流处理1.1业务现状分析需求：统计主站每个(制定)课程访问的客户端、地域信息分布地域:ip转换SparkSQL

陈府才俊·2020-06-30 08:58

大数据组件Presto，Spark SQL，Hive相互关系

大数据组件Presto，SparkSQL，Hive相互关系工作上经常写SQL，有时候会在Presto上查表，或者会Prestoweb页面上写SQL语句。

奥卡姆的剃刀·2020-06-30 07:51

hive常用函数

1、数据介绍首先我们产生我们的数据,使用sparksql来产生吧：valdata=Seq[(String,String)](("{\"userid\":\"1\",\"action\":\"0#222\

RangeYan2012·2020-06-30 06:19

spark解决 org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

使用sparksql的thriftjdbc接口查询数据时报这个错误Exceptioninthread"main"java.sql.SQLException:org.apache.spark.SparkException

AI_skynet·2020-06-30 02:23

大数据-spark概述

目前，Spark生态系统已经包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。

xiaoqiang17·2020-06-30 00:00

sparkSQL读取hive分区表的问题追踪

示例读取的table格式为parqut格式，spark每次读取会扫描table根目录下所有的目录和文件信息，然后生成file的FakeFileStatus信息，用于生成table的schema信息，并且每次查询table都会判断该table的schema的信息是否有变化，如果有变化则从parquet的meta文件、data文件的footeer（如果meta文件不存在），再次生成schame信息，但

xiaolinzi007·2020-06-30 00:37

详解spark sql用户自定义函数:UDF与UDAF

场景UDAF=USERDEFINEDAGGREGATIONFUNCTION11上一篇文章已经介绍了sparksql的窗口函数，并知道Sparksql提供了丰富的内置函数供猿友们使用，辣为何还要用户自定义函数呢

打怪的蚂蚁·2020-06-29 23:42

Spark复习 Day03：SparkSQL

Spark复习Day03：SparkSQL1.什么是SparkSQL------------------------------------------------SparkSQL是Spark用来处理结构化

葛红富·2020-06-29 23:15

Spark深入解析（十九）：SparkSQL之Spark SQL概述

目录SparkSQL官方介绍什么是SparkSQLSparkSQL的特点SparkSQL的优缺点Hive和SparkSQLSparkSQL数据抽象什么是DataFrame什么是DataSetRDD、DataFrame

老王的小知识·2020-06-29 22:07

Spark深入解析：博文大纲

目录一、Spark基础解析二、SparkScore三、SparkSql四、SparkStreaming五、StructuredStreaming一、Spark基础解析Spark深入解析（一）：Spark

老王的小知识·2020-06-29 22:36

SparkSql 读取elasticsearch 表数据

SparkSql读取elasticsearch表数据1版本Spark2.3.2，elasticsearch5.3.3，scala2.112Pom.xml部分依赖 org.elasticsearch

羞羞的铁脚·2020-06-29 22:46

Spark SQL 分析 Nginx 访问日志

前言项目地址github:SparkSQL分析Imooc访问日志环境说明Java版本：1.8Scala版本：2.11.12Hadoop版本：hadoop-2.6.0-cdh5.14.0spark版本：spark

小旋锋·2020-06-29 22:24

Spark：org.apache.spark.SparkException: Task not serializable

最近调式Java语言写sparkSQL访问HBase数据表，遇到标题所述的问题，先描述下问题出现过程，然后讲述下问题解决办法。

wuscar0703·2020-06-29 21:07

SparkSQL学习笔记(一)DataFrame

SQLContext:SparkSQL的所有方法都在SQLContext类或它的子类里，用SparkContext创建一

王义凯_Rick·2020-06-29 20:39

Spark实验之环境搭建

其他Spark的库都是构建在RDD和SparkCore之上的SparkSQL：提供通过ApacheHi

敲代码去·2020-06-29 18:34

fastspark | 用SparkCore和SparkSQL两种方式实现各省份广告TopN统计

内容本文讲述使用SparkCore和SparkSQL实现每个省份点击量最多的前三个广告id，测试数据如下省份id广告id110011001100111211011112110211021103111211121101111221002121210121212104212121112104210321112121210431213112311231213100SparkCoreimportorg.a

pomelorange·2020-06-29 18:20

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

背景和动机SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划，后者的目的是针对既定的计划尽可能执行的更快。

weixin_45906054·2020-06-29 16:10

sparkSQL13（DStream操作实战、数据源）

文章目录DStream操作实战1、架构图2、实现流程3、执行查看效果sparkStreaming数据源1、文件数据源2、自定义数据源3、RDD队列DStream操作实战1SparkStreaming接受socket数据，实现单词计数WordCount1、架构图2、实现流程第一步：创建maven工程并导入jar包2.11.82.2.0org.scala-langscala-library${scal

Bitmao888·2020-06-29 16:54

推荐频道

sparkSQL

用Apache Spark进行大数据处理

解决Spark窗口统计函数rank()、row_number()、percent_rank()的OOM问题

SparkSQL自适应执行优化引擎

Flink+Druid构建实时OLAP的探索

（3）Flink学习- Table API & SQL编程

【SparkSQL】partitionColumn, lowerBound, upperBound, numPartitions如何加速数据库抽取（oracle）

SparkSQL 性能调优参数

[2.5]详解spark sql用户自定义函数:UDF与UDAF

2019年新年计划

基于 Scala 的产品开发实践 | 掘金技术征文

SparkSQL的自适应执行---Adaptive Execution

spark从入门到放弃三十二:Spark Sql(5)hive sql 简述

Spark 3.0 - AQE浅析 (Adaptive Query Execution)

Spark基本架构及运行原理

Spark入门必读：核心概念介绍及常用RDD操作

Spark(SparkSql) 写数据到 MySQL中（Spark读取TCP socket/文件）

sparksql的agg函数，作用：在整体DataFrame不分组聚合

SparkSql--Datafram

Spark SQL中实现Hive MapJoin

大数据工程师，需要学习哪些基本技能？

spark解决org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

Apache-DolphinScheduler-1.2.1 源码: 编译

spark基础之spark sql运行原理和架构

spark 将dataframe数据写入Hive分区表

SparkSql 项目实战

OLAP OLTP presto、druid、sparkSQL、kylin的对比分析，如性能、架构等，有什么异同？

spark-sql中视图关联表结果不匹配问题

spark-sql中视图关联表结果不匹配问题

Parquet与ORC：高性能列式存储格式

Spark--Spark SQL

SparkSQL---开窗函数（java）

SparkSQL---UDF（java）

SparkStreaming项目实战系列——1.实时流概述

大数据组件Presto，Spark SQL，Hive相互关系

hive常用函数

spark解决 org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

大数据-spark概述

sparkSQL读取hive分区表的问题追踪

详解spark sql用户自定义函数:UDF与UDAF

Spark复习 Day03：SparkSQL

Spark深入解析（十九）：SparkSQL之Spark SQL概述

Spark深入解析：博文大纲

SparkSql 读取elasticsearch 表数据

Spark SQL 分析 Nginx 访问日志

Spark：org.apache.spark.SparkException: Task not serializable

SparkSQL学习笔记(一)DataFrame

Spark实验之环境搭建

fastspark | 用SparkCore和SparkSQL两种方式实现各省份广告TopN统计

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

sparkSQL13（DStream操作实战、数据源）