Spark-SQL 第9页

Spark SQL和Hive在处理日期/时间上的差异

但是SQL开发好在程序执行时通过Spark-SQL来运行的，SQL可以成功执行，没有报出任何语法错误，但是没有任何结果数据！在经过仔细查询

bluishglc·2018-12-27 12:22

spark-sql的几种创建方式

Spark1.x//sparksql用来处理结构化数据类似数据库中的表一样存储数据Spark1.xvalsc=newSparkContext(conf)valsqlContext=newSQLContext(sc)//将RDD和schema信息关联到一起,1.RDD和caseclass2.RDD和StructType//caseclassPerson将RDD中的数据转换成caseclass属性相对

LJ2415·2018-12-15 21:14

spark-shell与spark-sql的访问hive

1.spark-shell的使用：安装完spark之后，将spark/bin的路径配置到本地文件，即可不需要进入spark/bin目录下启动任务1）直接打开，运行以下命令会发现无法访问hive表的数据：spark-shell--masterlocal[2]spark.sql("showtables").show()2）将hive/conf目录下的hive-site.xml文件拷贝到spark/co

翰文不是瀚·2018-11-22 23:10

Spark-SQL解析

文章目录Spark-SQL解析Antlr4一、简介1.词法分析阶段（lexicalanalysis)2.解析阶段二、语法三、编译四、遍历模式1.Listener（观察者模式）2.Visitor（访问者模式

Echo Lee.·2018-10-30 19:04

Spark2.3.1使用技巧

Spark2.3.1使用技巧Spark-SQL读取JSON文件时反射表头caseclassStudentInfo(id:Long,name:String,age:Int)valexample=spark.read.json

笨兔儿·2018-10-09 00:00

Spark DataFrame常用操作

Spark-SQL之DataFrame操作大全下面是其中没有包含的内容，工作中比较常用，总结在这里：1、正则匹配valapp_

简之·2018-09-21 23:39

spark dataframe 全局排名优化

原文开源中国osenlinApacheSparkspark提供给我们的全局排序，默认情况下只有spark-sql提供的窗口函数，但如果窗口是整个表eg：row_number()over(orderbya

我还在等你回家·2018-09-03 16:39

spark-sql执行hivesql

spark提交命令有spark-shell、spark-submit、spark-sql，spark-sql的提交命令很少见吧，不过已经被我发掘出来了。

大灰狼学编程·2018-08-27 14:02

spring-boot集成spark并使用spark-sql

堕落门徒·2018-08-24 16:00

在IDEA中调试运行Spark SQL

2016年08月04日11:07:35阅读数：4630昨晚想通过调试的方式阅读一下SparkSQL的源码，用spark-sql命令行需要跨进程调试，太麻烦，于是尝试了一下在IDEA中运行和调试.结果不出所料

cjlion·2018-07-27 11:29

Spark之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连

SuperBoy_Liang·2018-07-23 17:31

14.4 Spark-SQL基于Cassandra数据分析编程实例

14.4Spark-SQL基于Cassandra数据分析编程实例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容：Spark对Canssandra数据库数据的处理，通过SparkSQL对结构化数据进行数据分析。创建Gradle项目，引入依赖创建SparkSession连接写入Cassandra数据库读取Cassandra数据库Spark注册SQL临时视图执行Disti

王小雷-多面手·2018-07-15 22:39

14.3 Spark-SQL基于PostgreSQL数据分析编程实例

14.3Spark-SQL基于PostgreSQL数据分析编程实例“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新本节主要内容：Spark对PostgreSQL数据源数据的处理，通过SparkSQL对结构化数据进行数据分析。创建Gradle项目，引入依赖创建连接读数据库写数据库完整源码Spark2PostgreSQL.java完整项目源码14.3.1引入依赖compilegrou

王小雷-多面手·2018-07-15 22:35

[Spark]-结构化数据查询之数据源篇

7.数据源Spark-SQL支持通过Dataframe接口对各种数据源进行操作各种数据源的加载&保存数据转换(relationaltransformations)注册临时视图(temporaryview

weixin_30323631·2018-07-05 00:00

HBase实战（6）：使用Spark 2.2.1 直接操作HBASE 1.2.0数据库

点击打开链接使用spark-sql工具通过Hive间接操作Hbase的数据。点击打开链接使用Hive-sql操作Hbase数据。点击打

段智华·2018-06-15 15:37

SPARK2.2 DATAFRAME的一些算子操作

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连

DemonHunter211·2018-05-25 16:32

Spark实战（6）_spark-sql -e -f -i命令的整合和spark-sql日常作业开发流程总结

背景介绍在日常工作中，我们可以在一个shell脚本里面利用spark-sql-e执行sql脚本，而且可以传参数，但是存在一个问题，shell脚本对格式要求严格，而且shell脚本和spark-sql的脚本混在一起

padluo·2018-05-24 21:58

Spark 2.3.0 Spark SQL, Datasets, and DataFrames 学习笔记

你也可以通过使用spark-sql命令行或jdbc/odbc服务进行sql操作。1.2Datasets和DataFramesDat

hjbbjh0521·2018-05-24 15:58

（RDD）Cache 缓存使用详解

A：spark-code里面的cache是lazy的，spark-sql里面的是legal的3）缓存类型NONE:什么类型都不是DISK_ONLY：磁盘DISK_ONLY_2：磁盘双副

qq_30130043·2018-05-14 21:20

spark-sql学习——官网文档

综述spark-sql是spark生态圈中操作结构化数据的一个模块。

FisherWang_CN·2018-04-20 14:03

SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError

SparkSession时，出现异常：Exceptioninthread"main"java.lang.AbstractMethodError2.查看pom.xml文件，是否是因为spark-core和spark-sql

LittleLawson·2018-04-17 21:39

spark -SQL 配置参数

Spark-Sql的参数调优：官网：http://spark.apache.org/docs/latest/sql-programming-guide.html缓存表参考：https://blog.csdn.net

点点渔火·2018-04-15 17:41

spark - Spark-sql， DataFrame，DataSet名词解释

阅读更多1.什么是spark-sql？

功夫小当家·2018-04-07 16:00

Spark SQL 函数全集

除UDF函数，均可在spark-sql中直接使用。经过importorg.apache.spark.sql.functions._，也可以用于Dataframe，

liam08·2018-03-23 09:01

[Spark] Spark LogicalPlan 逆向生成SQL语句

在使用spark进行sql分析过程中，一般是将sql语句解析成LogicalPlan查看执行计划，LogicalPlan能够帮助我们了解Spark-SQL的解析，转换，优化，映射和执行的机制。

PowerMe·2018-03-15 10:36

Spark-SQL常用的时间处理函数

Spark-SQL常用的时间处理函数Spark-SQL函数对大小写不敏感姊妹篇：Mysql常用时间处理函数yearselectyear('2018-03-0320:30:34');//2018monthselectmonth

A6__6A·2018-03-13 20:56

Mysql常用的时间处理函数

Mysql常用的时间处理函数MySQL函数对大小写不敏感姊妹篇：spark-sql常用的时间处理函数yearselectyear('2018-03-0320:30:34');//2018monthselectmonth

A6__6A·2018-03-06 22:53

HiveContext和SQLContext

org.apache.spark.SparkContext)extendsorg.apache.spark.sql.SQLContextwithorg.apache.spark.Logging{SqlContext:应该是对应spark-sql

leebhing·2018-02-25 10:31

spark-sql读取映射hbase数据的hive外部表

1.拷贝如下jar包到sparkhome/jars（spark2.0之前是sparkhome/jars（spark2.0之前是{spark_home}/lib):hbase-protocol-1.2.0-cdh5.10.2.jarhbase-client-1.2.0-cdh5.10.2.jarhbase-common-1.2.0-cdh5.10.2.jarhbase-server-1.2.0-cd

qq_37184313·2018-01-25 18:49

spark-sql读取映射hbase数据的hive外部表

之前在业务处理中建立的一个hive映射hbase数据的外部表，通过hive查询成功，但是通过spark-sql去查询报了如下错误：Error:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException

Sir_yuan·2017-12-27 17:35

spark-sql(四)---读写elasticsearch数据

sparksql读写elasticsearchsparksql将elasticsearch数据转换成RDD进行计算，测试下sparksql对elasticsearch的读和写的操作。1环境1.1软件环境hadoop2.7.3spark2.2elasticsearch5.6.4jdk1.81.2机器环境节点配置组件角色node1124core、16g、1块硬盘、千兆网卡hadoop、es、spark

敲码的汉子·2017-12-07 14:05

spark-sql(一)---cli模式

spark-sql是由spark官方维护，在hive的基础上修改了sql解析任务和执行任务的部分。安装环境hadoop环境（自行安装）spark2.2安装安装很简单，spark开箱即用。

敲码的汉子·2017-11-28 11:23

Spark SQL架构

通过执行计划理解上图spark-sql(default)>explainextended>select>a.key*(4+5),>b.value>from>aaajoinaab>ona.key=b.keyanda.key

A_ChunUnique·2017-11-22 20:21

每日问题记录20171114

spark-shell如果打印一个string变量，会阶段，需要使用println(xx)才能打印出全部的数值===============spark-sql如何写入数据到hive中？

轩脉刃·2017-11-14 22:00

Spark - ERROR Executor: java.lang.OutOfMemoryError: unable to create new native thread

Exceptionintaskxxxinstagexxxjava.lang.OutOfMemoryError:unabletocreatenewnativethread那么可能性非常大的原因是你当前通过spark-submit或spark-sql

chenjieit619·2017-11-06 16:06

spark 工作目录及数据本地化配置

执行spark-sql时，查询数据量超过1.7亿行，数据量大小38G，出现系统盘占用突然变高的情况检查为/tmp目录下，spark生成的临时目录占用了大量的磁盘空间，生成的spark临时文件超过15G了

ZhaoYingChao88·2017-11-03 18:58

CDH支持Spark-sql

之前用CDH5.2进行集群的搭建，现需要将CDH支持spark-sql，具体搭建请见CDH离线安装一：准备环境jdk1.7.0_79scala2.10.4maven3.3.9spark-1.1.0.tgz

Bloo_m·2017-10-23 19:29

spark-sql调优

sparksql性能调优性能优化参数在spark中，SparkSQL性能调优只要是通过下面的一些选项进行优化的：1spark.sql.codegen默认值为false，当它设置为true时，SparkSQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行小规模的查询的时候反而会变慢，就是说直接用查询反而比将它编译成为java的二进制代码快

ZhaoYingChao88·2017-10-21 19:41

Spark Parquet使用

SparkSQL下的Parquet使用最佳实践和代码实战分类：spark-sql（1）一、SparkSQL下的Parquet使用最佳实践1）过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式

ZhaoYingChao88·2017-10-18 15:26

CDH5.7.6支持SparkSQLThriftServer

我的场景：社区免费版CDH5.7.6、Spark要onYarn；CDH从5.5开始Sparkdistro不带ThriftServer分布式SQL引擎、以及spark-sql脚本。

DeepLearningZ·2017-09-12 18:59

spark-sql like查询

当时遇到使用两个表，需要用到like的时候，建议使用mapsidejoin或者使用sparksql的broadcastjoinsqlContext.sql("""|select*fromleftA,rightBwhereA.urllikecontact(B.url,'%')""".stripMargin)valimportantBroad=sc.broadcast(important)valpri

九指码农·2017-08-27 14:47

Spark-sql[1]-antrl4的入门以及在spark中的实现

weareallinthegutter,butsomeofusarelookingatthestars.--王尔德JustForM为了更方便分析人员使用平台，越来越多的计算框架都实现了Sql接口，有的是类sql，有的标准的sql规范，其目的就是更好的服务于分析人员。比如hive使用了antlr3实现了自己的HQL,Flink使用ApacheCalcite,而Calcite的解析器是使用JavaCC

PunyGod·2017-08-23 00:25

Spark-sql[1]-antrl4的入门以及在spark中的实现

weareallinthegutter,butsomeofusarelookingatthestars.--王尔德JustForM为了更方便分析人员使用平台，越来越多的计算框架都实现了Sql接口，有的是类sql，有的标准的sql规范，其目的就是更好的服务于分析人员。比如hive使用了antlr3实现了自己的HQL,Flink使用ApacheCalcite,而Calcite的解析器是使用JavaCC

PunyGod·2017-08-23 00:25

Spark-SQL之DataFrame创建

本篇介绍Spark-SQL之DataFrame的创建，正如学习永无止境，本篇也将不断的迭代更新。SparkSQL中的DataFrame类似于一张关系型数据表。

文哥的学习日记·2017-08-16 00:53

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

1．JDBCSparkSQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。1.1．从MySQL中加载数据（SparkShell方式）1.启动SparkShell，必须指定mysql连接驱动jar包[[email protected]]#bin/spark-she

toto1297488504·2017-07-11 18:32

Spark SQL RDD与DataFrames相互转换

一、spark-SQL的DataFrame与RDD的相互转换通常有两种(spark1.6.x)：第一种方式是使用反射机制推断RDD中schema和类型信息。

风筝中有风·2017-06-17 14:28

spark-sql case when 问题

SELECTCASE(pmod(datediff(f0.`4168388__c_0`,'1970-01-04'),7)+1)WHEN'1'THEN'星期日'WHEN'2'THEN'星期一'WHEN'3'THEN'星期二'WHEN'4'THEN'星期三'WHEN'5'THEN'星期四'WHEN'6'THEN'星期五'WHEN'7'THEN'星期六'ELSE'星期六'ENDASd_4168393FRO

去买大白兔·2017-05-19 21:02

spark-sql读取hive挂载alluxio

Alluxio是一个基于内存的分布式文件系统，它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件，主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。Alluxio的前身为Tachyon在大数据领域，最底层的是分布式文件系统，如AmazonS3、ApacheHDFS等，而较高层的应用则是一些分布式计算框架，如Spark、MapReduce、Flink等，这些分布式框架，往往

九指码农·2017-05-04 07:07

Spark SQL，DataFrames和Datasets学习

在所有工作开始前，也就是在官网文档中也没有介绍的就是，在pom文件里面添加spark-sql的依赖。不知为何官网没有把这个写进去。不过google下就知道了。

shohokuooo·2017-04-23 10:34

Spark-SQL编程总结

概览SparkSQL用于处理结构化数据，与SparkRDDAPI不同，它提供更多关于数据结构信息和计算任务运行信息的接口，SparkSQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFramesAPI、DatasetsAPI与SparkSQL进行交互，无论使用何种方式，SparkSQL使用统一的执行引擎记性处理。用户可以根据自己喜好，在不同API中选择合适的进行处理。本章中所有用例

ZhaoYingChao88·2017-03-23 12:39

推荐频道

Spark-SQL

Spark SQL和Hive在处理日期/时间上的差异

spark-sql的几种创建方式

spark-shell与spark-sql的访问hive

Spark-SQL解析

Spark2.3.1使用技巧

Spark DataFrame常用操作

spark dataframe 全局排名优化

spark-sql执行hivesql

spring-boot集成spark并使用spark-sql

在IDEA中调试运行Spark SQL

Spark之DataFrame操作大全

14.4 Spark-SQL基于Cassandra数据分析编程实例

14.3 Spark-SQL基于PostgreSQL数据分析编程实例

[Spark]-结构化数据查询之数据源篇

HBase实战（6）：使用Spark 2.2.1 直接操作HBASE 1.2.0数据库

SPARK2.2 DATAFRAME的一些算子操作

Spark实战（6）_spark-sql -e -f -i命令的整合和spark-sql日常作业开发流程总结

Spark 2.3.0 Spark SQL, Datasets, and DataFrames 学习笔记

（RDD）Cache 缓存使用详解

spark-sql学习——官网文档

SparkSession中出现Exception in thread "main" java.lang.AbstractMethodError

spark -SQL 配置参数

spark - Spark-sql， DataFrame，DataSet名词解释

Spark SQL 函数全集

[Spark] Spark LogicalPlan 逆向生成SQL语句

Spark-SQL常用的时间处理函数

Mysql常用的时间处理函数

HiveContext和SQLContext

spark-sql读取映射hbase数据的hive外部表

spark-sql读取映射hbase数据的hive外部表

spark-sql(四)---读写elasticsearch数据

spark-sql(一)---cli模式

Spark SQL架构

每日问题记录20171114

Spark - ERROR Executor: java.lang.OutOfMemoryError: unable to create new native thread

spark 工作目录及数据本地化配置

CDH支持Spark-sql

spark-sql调优

Spark Parquet使用

CDH5.7.6支持SparkSQLThriftServer

spark-sql like查询

Spark-sql[1]-antrl4的入门以及在spark中的实现

Spark-sql[1]-antrl4的入门以及在spark中的实现

Spark-SQL之DataFrame创建

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

Spark SQL RDD与DataFrames相互转换

spark-sql case when 问题

spark-sql读取hive挂载alluxio

Spark SQL，DataFrames和Datasets学习

Spark-SQL编程总结