SPARK-SQL 第10页

Spark(四): Spark-sql 读hbase

SparkSQL是指整合了Hive的spark-sqlcli,本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler,具体配置参见：Hive(五):hive与hbase整合目录：SparkSql访问hbase配置测试验证SparkSql访问hbase配置:拷贝HBase的相关jar包到Spark节点上的$SPARK_HOME/lib目录下，清单如下：guava-1

SunWuKong_Hadoop·2016-12-30 10:35

Spark-SQL和Hive on Spark, SqlContext和HiveContext

HiveonSpark和SparkSQL是不同的东西HiveonSpark:是除了DataBricks之外的其他几个公司搞的，想让Hive跑在Spark上;SparkSQL:Shark的后继产品,解除了不少Hive的依赖，且让SQL更加抽象通用化,支持json,parquet等格式;关于Catelog和SchemaCatelog是目录的意思，从数据库方向说，相当于就是所有数据库的集合;Schema

美伊小公主的奶爸·2016-12-22 15:53

基于spark2.0整合spark-sql + mysql + parquet + HDFS

一、概述spark2.0做出的改变大家可以参考官网以及其他资料，这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession，故而利用spark-shell客户端操作会有些许不同，具体如下文所述二、spark额外配置1.正常配置不再赘述，这里如果需要读取MySQL数据，则需要在当前用户下的环境变量里额外加上JDBC的驱动jar包例如我的是：mysql-

CaramelCapucchino·2016-11-22 12:11

构建Scala的Maven项目

spark的scala项目Maven构建和使用一、使用spark-sql使用spark-sql--masteryarn--num-executors30--executor-memory12g二、建立项目

风行者之倾覆天下·2016-11-18 14:25

spark-sql读取hive

Spark-1.3.1与Hive整合实现查询分析操作步骤1.我们可以通过指定SPARK_CLASSPATH变量，将需要访问Hive的元数据存储MySQL的驱动包加入进去，然后直接启动SparkSQLShell即可。SPARK_CLASSPATH="$SPARK_CLASSPATH:/app/apache-hive-1.2.1-bin/lib/mysql-connector-java-5.1.38-

csdncjh·2016-11-16 15:31

Spark-sql Join优化=>(cache+BroadCast)

Spark-sqlJoin优化背景spark-sql或者hive-sql很多业务场景都会有表关联的的操作，在hive中有mapsidejoin优化，对应的在spark-sql中也有mapsidejoin

ChaosJ·2016-10-29 14:05

spark-thrift-server 执行spark-sql 的OOM GC异常.

场景: 在前端页面提交一个spark-sql,然后通过spark-thrift-server调用来执行.sql逻辑很简单,就是使用join关联两表(一个大表90G,一个小表3G)查询,前台界面执行出错

Andree·2016-10-19 10:03

spark-sql 性能测试

select*fromtw_stock_dwheret_date='20160810'2.08secondsselect*fromtw_stock_dwheret_date='20160623'2secondsselect*fromtw_stock_dwheret_date='20160810'unionallselect*fromtw_stock_dwheret_date='20160623'3

燃烧的岁月_·2016-10-19 03:37

Yarn application has already exited with state FINISHED

如果在运行spark-sql时遇到如下这样的错误，可能是因为yarn-site.xml中的配置项yarn.nodemanager.vmem-pmem-ratio值偏小，它的默认值为2.1，可以尝试改大一点再试

一见·2016-10-13 11:48

Spark-SQL之DataFrame操作大全

一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表，以及通过JDBC连接到

dabokele·2016-10-12 23:35

Spark-Sql源码解析之八 Codegen

Codegen，动态字节码技术，那么什么是动态字节码技术呢？先看来一段代码，假设SparkPlan为SortcaseclassSort(sortOrder:Seq[SortOrder],global:Boolean,child:SparkPlan)extendsUnaryNode{overridedefrequiredChildDistribution:Seq[Distribution]=if(g

亮亮-AC米兰·2016-08-12 13:58

实现CDH支持Spark SQL功能

CDH内嵌spark版本不支持spark-sql,可能是因为cloudera在推自己的impala；如果上线spark却不能使用sql这种结构化语言，对于大部分分析人员其实是很不爽的！

a822631129·2016-08-11 13:00

在IDEA中调试运行Spark SQL

昨晚想通过调试的方式阅读一下SparkSQL的源码，用spark-sql命令行需要跨进程调试，太麻烦，于是尝试了一下在IDEA中运行和调试.结果不出所料，虽然最终可以在IDEA中成功运行了，不过中间还是遇到了不少问题

美伊小公主的奶爸·2016-08-04 11:35

spark MetaException(message:Version information not found in metastore. )

bitcarmanlee·2016-07-25 17:01

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark-Sql创建多数据源Join实例——涉及关系库数据源1、Spark-Sql数据来源有多种，Hive，Kakfa，RDD及关系库等。

kwu_ganymede·2016-05-26 16:55

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark-Sql创建多数据源Join实例——涉及关系库数据源1、Spark-Sql数据来源有多种，Hive，Kakfa，RDD及关系库等。

kwu_ganymede·2016-05-26 16:00

Spark SQL/Hive 同一列的多行记录合并为一行

（第一列用户id，第二列商店id，第三列地区id，第四列日期）spark-sql>select*fromtest;10277654822172201510281027765482217220151026881482482217220151129102776

光于前裕于后·2016-05-26 16:21

Spark On Yarn中spark.yarn.jar属性的使用

SparkOnYarn中spark.yarn.jar属性的使用http://www.cnblogs.com/luogankun/p/4191796.html今天在测试spark-sql运行在yarn上的过程中

SIMONE·2016-05-26 14:00

Spark中文手册7：Spark-sql由入门到精通【续】

问题导读1.sqlContext.cacheTable("tableName")与sqlContext.uncacheTable("tableName")它们的作用是什么？2.SparkSQLCLI的作用是什么？3.SparkSQL数据类型有哪些。如何访问它们？性能调优对于某些工作负载，可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。在内存中缓存数据SparkSQL可以通过调用sqlCo

wanmeilingdu·2016-05-09 21:00

Spark中文手册6：Spark-sql由入门到精通

问题导读1、什么是SparkContext？2、如何配置Parquet？3、如何高效的从ApacheHive中读出和写入数据？（一）开始Spark中所有相关功能的入口点是SQLContext类或者它的子类，创建一个SQLContext的所有需要仅仅是一个SparkContext。valsc:SparkContext//AnexistingSparkContext.valsqlContext=new

wanmeilingdu·2016-05-09 21:00

Spark-Sql之DataFrame实战详解

在Spark-1.3新加的最重要的新特性之一DataFrame的引入，很类似在R语言中的DataFrame的操作，使得Spark-Sql更稳定高效。

kwu_ganymede·2016-05-07 15:00

spark读取oracle的

刚开始使用spark-sql，首先看了一部分的源码。然后开始着手程序的编写。

九指码农·2016-05-05 15:18

spark读取oracle的

刚开始使用spark-sql，首先看了一部分的源码。然后开始着手程序的编写。

qq_14950717·2016-05-05 15:00

spark学习系列1

spark-sql的运行速度是hive的10到100倍，spark的前身是shark，是来自伯克利实验室。

u013676711·2016-04-14 18:00

spark-sql部署实现与Hive交互

spark-sql部署版本Hadoop-2.5.0-cdh5.3.2 Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上：spark

vfgbv·2016-04-11 15:00

[置顶] Spark-Sql版本升级对应的新特性汇总

Spark-Sql版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善，2014年6月1日ReynoldXin宣布：停止对Shark的开发。

kwu_ganymede·2016-04-01 17:00

禁止MAC Chrome更新

禁止MACChrome更新SPARK1.4后可以支持看spark－sql的DagVisualization,但是Chrome升级到48以后,就傻掉了,图什么的都出不来,经过很多个浏览器测试确定是chrome

leanken_lin·2016-04-01 14:09

HIVE和SPARKSQL计算引擎在TEXT导入PARQUET格式的HIVE存储引擎分片数量机制

insertintoXXXXXXX201512select*fromXXXXXXX20151231;以上的insert，3000万的数据，一般是6、7分钟的样子，，一个表到总表产生的分片数是40多个，之后查询一张表大概1秒左右别用Spark-SQL

feiweihy·2016-03-25 15:33

Spark kyro Serialization

spark-sql中默认使用的是kyro的序

lsshlsw·2016-03-11 16:00

Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式

在进行离线大数据处理工程中，使用hive进行运算出现了瓶颈，由于文件太大，集群的block块采用的是默认128M没有进行调整，而且集群规模比较小，只有4个节点，机器配置：2台32core,内存14.5G 1台32core，内存30.3G 1台32core，内存46.1G 在进行分析过程中，有大量的leftjion和groupby 以及sumcountHQL各种嵌套[主要是当初设计的不合理，下边的没

bbaiggey·2016-03-10 11:00

spark-sql应用

一.序言这里介绍一下我们对spark-sql的一些简单应用。

greemranqq·2016-03-04 08:37

spark-sql应用

一.序言这里介绍一下我们对spark-sql的一些简单应用。

犀利的蛙·2016-03-03 21:39

spark-sql应用

阅读更多一.序言这里介绍一下我们对spark-sql的一些简单应用。

greemranqq·2016-03-03 21:00

Spark - ERROR Executor: Exception in tjava.lang.OutOfMemoryError: unable to create new native thread

Exceptionintaskxxxinstagexxx java.lang.OutOfMemoryError:unabletocreatenewnativethread 那么可能性非常大的原因是你当前通过spark-submit或spark-sql

bluishglc·2016-02-20 16:00

在Yarn上运行spark-shell和spark-sql命令行

转载自：http://lxw1234.com/archives/2015/08/448.htm如果你已经有一个正常运行的HadoopYarn环境，那么只需要下载相应版本的Spark，解压之后做为Spark客户端即可。需要配置Yarn的配置文件目录，exportHADOOP_CONF_DIR=/etc/hadoop/conf这个可以配置在spark-env.sh中。运行命令：cd$SPARK_HOM

ggz631047367·2016-01-01 21:00

Spark-SQL优化案例---股票点击实时排行

Spark-SQL优化案例---股票点击实时排行，需求每天股票点击统计排列统计、每小时股票统计排列统计，及天与小时的环比变化。

kwu_ganymede·2015-12-23 15:00

crontab shell调用spark-sql，实现周期性动态SQL批量自动执行

对于熟悉Scala开发的人来说，对于spark-sql的使用，直接jar包中写入代码处理就能轻松实现动态语句的执行。

富兰克林008·2015-12-18 13:39

Spark-SQL介绍及优化策略

目前我们在使用SQL引擎时，月级的、天级的、小时级的查询都转到了Spark-SQL，速度及稳定性都有较好的表现。

kwu_ganymede·2015-12-14 14:44

Spark-SQL介绍及优化策略

目前我们在使用SQL引擎时，月级的、天级的、小时级的查询都转到了Spark-SQL，速度及稳定性都有较好的表现。

kwu_ganymede·2015-12-14 14:00

Parquet表在spark与Impala间兼容性测试

针对sqlonhadoop类的组件，hive/Impala/spark-sql/presto，接触过一点，也做过部分的验证，结论暂时与客户所期望的有点出入，因此目前有点小纠结。

fishhunter·2015-12-10 13:56

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据，前端数据通过kafka队列传递，外层还有flume的实时收集。

kwu_ganymede·2015-12-03 14:00

spark-sql部署实现与Hive交互

spark-sql部署版本Hadoop-2.5.0-cdh5.3.2 Hive-0.13.1-cdh5.3.2Spark-1.5.1以CNSH001节点为例sparkmaster在CNSH001上：spark

developerinit·2015-11-25 09:00

Hadoop运维记录系列(十七)

上个月通过email，帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题，记录一下。

Slaytanic·2015-11-13 19:35

Hadoop运维记录系列(十七)

上个月通过email，帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题，记录一下。

Slaytanic·2015-11-13 19:35

Hadoop运维记录系列(十七)

上个月通过email，帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题，记录一下。

Slaytanic·2015-11-13 19:35

Spark脚本调用

Spark提供了多个脚本来作为程序的入口，其中最常用的是交互脚本spark-shell,pyspark，还有sparksql的客户端spark-sql。

代码浮生·2015-11-13 11:00

spark1.2.0版本SparkSQL使用parquet类型注意事项

Spark1.2.0版本中是用parquet存储类型时注意事项： sql语句： select * from order_created_dynamic_partition_parquet; 在spark-sql

·2015-11-12 23:51

spark-sql启动后在监控页面中显示的Application Name为SparkSQL::xxxx的疑问

启动spark-sql执行sql时，在监控页面中看到该Application的Name是SparkSQL:hadoop000(其中hadoop000是测试机器的hostname)，就有个想法，修改下该application

·2015-11-12 23:50

Spark On Yarn中spark.yarn.jar属性的使用

今天在测试spark-sql运行在yarn上的过程中，无意间从日志中发现了一个问题： spark-sql --master yarn 14/12/29 15:23:17 INFO Client

·2015-11-12 21:16

Spark读写和Lost Excutor错误的分析和解决过程

一、概述上篇blog记录了些在用spark-sql时遇到的一些问题，今天继续记录

yanhan_huang·2015-11-02 10:00

推荐频道

SPARK-SQL

Spark(四): Spark-sql 读hbase

Spark-SQL和Hive on Spark, SqlContext和HiveContext

基于spark2.0整合spark-sql + mysql + parquet + HDFS

构建Scala的Maven项目

spark-sql读取hive

Spark-sql Join优化=>(cache+BroadCast)

spark-thrift-server 执行spark-sql 的OOM GC异常.

spark-sql 性能测试

Yarn application has already exited with state FINISHED

Spark-SQL之DataFrame操作大全

Spark-Sql源码解析之八 Codegen

实现CDH支持Spark SQL功能

在IDEA中调试运行Spark SQL

spark MetaException(message:Version information not found in metastore. )

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark-Sql创建多数据源Join实例——涉及关系库数据源

Spark SQL/Hive 同一列的多行记录合并为一行

Spark On Yarn中spark.yarn.jar属性的使用

Spark中文手册7：Spark-sql由入门到精通【续】

Spark中文手册6：Spark-sql由入门到精通

Spark-Sql之DataFrame实战详解

spark读取oracle的

spark读取oracle的

spark学习系列1

spark-sql部署实现与Hive交互

[置顶] Spark-Sql版本升级对应的新特性汇总

禁止MAC Chrome更新

HIVE和SPARKSQL计算引擎在TEXT导入PARQUET格式的HIVE存储引擎分片数量机制

Spark kyro Serialization

Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式

spark-sql应用

spark-sql应用

spark-sql应用

Spark - ERROR Executor: Exception in tjava.lang.OutOfMemoryError: unable to create new native thread

在Yarn上运行spark-shell和spark-sql命令行

Spark-SQL优化案例---股票点击实时排行

crontab shell调用spark-sql，实现周期性动态SQL批量自动执行

Spark-SQL介绍及优化策略

Spark-SQL介绍及优化策略

Parquet表在spark与Impala间兼容性测试

Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

spark-sql部署实现与Hive交互

Hadoop运维记录系列(十七)

Hadoop运维记录系列(十七)

Hadoop运维记录系列(十七)

Spark脚本调用

spark1.2.0版本SparkSQL使用parquet类型注意事项

spark-sql启动后在监控页面中显示的Application Name为SparkSQL::xxxx的疑问

Spark On Yarn中spark.yarn.jar属性的使用

Spark读写和Lost Excutor错误的分析和解决过程