E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
Hive-
hiveSQL
调优
2019独角兽企业重金招聘Python工程师标准>>>前言很早以前也是写过
hivesql
优化分享,但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。
weixin_34114823
·
2020-07-08 16:22
Hive调优实战
Hive优化总结---by食人花优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。
szn
·
2020-07-08 07:39
mapjoin解析
今天遇到一个hive的问题,如下
hivesql
:selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录
love others as self
·
2020-07-08 05:09
MR
Hive SQL常用命令总结,大数据开发人员按需收藏
这种SQL就是
HiveSQL
,她可以将SQL语句转换为MapReduce任务运行,通过特殊的SQL去查询分析需要的内容,使不熟悉mapreduce的用户很方便的利用SQL语言查询,
技术大咖秀
·
2020-07-08 05:42
Hive
随手笔记
Run Hive on spark tasks with Hue, always running more than 30 min
环境CDH6.3.1Hive2.1.1(执行引擎Spark)HueSpark2.4.0问题Hue执行
hivesql
:理论上14.005s已经执行完了,结果已经正常返回,但是hue上的job持续了30m才结束
bertramlau
·
2020-07-07 13:30
大数据
Hive SQL 解析及应用
SQL已经成为各家"数据公司"必不可少的数据查询语言.Hive在其中的地位也更是显而易见,大多数批处理任务还是在使用
HiveSQL
开发.从Table级别看,一个
HiveSQL
文件,包含了如下信息:DROP
haitaoyao
·
2020-07-07 12:17
hive调优案例
Hive优化核心思想:把
HiveSQL
当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain显示执行计划EXPLAIN
浮生若梦1379
·
2020-07-06 19:19
hive
HiveSQL
DQL join与union
3.3join查询将多个表通过字段关联在一起,形成查询结果创建student_location表,存储学生的地理位置信息CREATETABLEstudent_location(idstringcomment'stdno',provincestringcomment'provincename',citystringcomment'cityname',regionstringcomment'regio
想艳阳天里的你
·
2020-07-06 04:20
hive
hive sql 的总结分析
旨在对
hivesql
整体总结记录todo总结一、hive的不同种类的joinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,union支持LEFTSEMIJOIN和CROSSJOIN
lianchaozhao
·
2020-07-06 02:02
hive
hive
Spark SQL
SparkSQL是支持在Spark中使用Sql、
HiveSql
、Scala中的关系型查询表达式。
weixin_34124939
·
2020-07-06 00:08
hiveSql
第十二单元常用函数、窗口函数(开窗函数)1、常用函数1.1字符串--字符串拼接函数concatselectconcat('abc','def');selectconcat_ws('-','abc','def');--求字符串长度lengthselectlength('jsdfijsdkfjkdsfjkdf');1.2日期--日期函数to_dateselectto_date('2019-09-111
故里良田
·
2020-07-05 21:27
hiveSQl
学习
语法:https://blog.csdn.net/hguisu/article/details/7256833Hive入门及常用指令:https://blog.csdn.net/u014236541/article/details/78245924外部表与内部表区别:https://blog.csdn.net/qq_36743482/article/details/78393678创建分区表:ht
Kevinniec
·
2020-07-05 05:47
数据中台
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
赵强老师
·
2020-07-05 01:27
大数据
spark
sql
hadoop
flink
mapreduce 实现内连接,左连接,右连接,全连接,反连接
mapreduce可以实现sql所做的任何查询操作,通过写mapreduce可以了解hadoop里面的数据操作,提高
hivesql
的性能。
勿在浮沙筑高台LS
·
2020-07-04 11:09
Hadoop
大数据学习路线(完整详细版)
清洗:Spark、
HiveSQL
/SparkSQL、MapReduce(已经过时)存储:HDFS、Alluxio(分布式内存存储)、Redis(高速缓存)
✾ ͡冷೨夏ʚɞ͜✿
·
2020-07-04 01:19
大数据学习
大数据开发
Hadoop
大数据
大数据开发
大数据学习
编程语言
程序员
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
赵强老师
·
2020-07-02 16:00
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
赵强老师
·
2020-07-02 16:00
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
collen7788
·
2020-07-02 15:54
Spark
SQL
大数据
Ubuntu16安装HIVE全程记录
什么是HiveHive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
)查询功能,底层数据是存储在HDFS上。
chengshuo678
·
2020-07-02 05:41
Hive
HiveSQL
基础之常用函数
1.如何把时间戳转换成日期语法from_unixtime(bigintunixtime,stringformat)format1.yyyy-MM-ddhh:mm:ss2.yyyy-MM-ddhh3.yyyy-MM-ddhh:mm4.yyyyMMdd举例SELECTfrom_unixtime(paytime,'yyyy-MM-ddhh:mm:ss')FROMuser_tradeWHEREdt='20
华夏_数据分析
·
2020-07-01 09:48
HiveSQL
SQL
Hive/
HiveSQL
常用优化方法全面总结
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。
大数据技术与架构
·
2020-07-01 05:54
Spark基本架构及运行原理
SparkSQL:Spark处理结构化数据的库,就像
HiveSQL
,Mysql一样,企业中用来做报表统计。SparkStreaming:实时数据流处理组件,类似Storm。SparkStrea
zxc123e
·
2020-06-30 20:51
Spark
Hive的10种常用优化总结,再也不怕MapReduce分配不均了
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
Leo.yuan
·
2020-06-30 10:29
[Hive]Hive调优:让任务并行执行
业务背景extract_trfc_page_kpi的
hivesql
如下:setmapred.job.queue.name=pms;sethive.exec.reducers.max=8;setmapred.reduce.tasks
yeweiouyang
·
2020-06-30 07:53
[大数据]Hive
Apache
Hive
Oozie作业调度 - Demo
可靠的工作流调度系统,它内部定义了三种作业:1.工作流作业:由一系列动作构成的有向无环图(DAGs)2.协调器作业:按时间频率周期性触发Oozie工作流的作业3.Bundle作业:管理协调器作业一、首先示例提交
HiveSQL
迷失技术de小猪
·
2020-06-30 06:19
大数据
数据开发
Hive调优实战
优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
xch_w
·
2020-06-29 23:33
Hive
hive
性能
hive部分:hive的优化,MapReduce的优化
hive核心思想:把
HiveSQL
当做Mapreduce程序去优化。以下SQL不会转为Mapreduce来执行:select仅查询本表字段;where仅对本表字段做条件过滤。
道法—自然
·
2020-06-29 22:26
大数据开发面试
HiveSql
性能优化
一、解决数据倾斜1.过滤掉null部分key值存在大量空字段,会hash到同一reduce,造成reduce长尾,将null值过滤掉举例:selectuser_idfromlogswherestatdate='20170815'whereuser_idisnotnull;2.hivejoin倾斜:设置joinskew参数解决sethive.optimize.skewjoin=true;sethiv
攻城狮Kevin
·
2020-06-29 22:52
Hive
HiveSql
中limit10的坑——对大数据量的表查询加group by
一般查询hive表中某个字段是否存在某个值,会使用如下查询语句select*from表名wheredt=XXXXand字段like'%某个值%'limit10;这种比较适合hive表数据量较小的情况,出现limit10,hive会默认判断此表数据量不大,只开启一个map进行查询,如果对于大表,比如好几百G上T的数据量,这么大的数据量只开一个map一方面查询慢,另一方面,因为数据量太大容易把机器跑崩
攻城狮Kevin
·
2020-06-29 22:52
Hive
dip-data-analyze 使用的hiveserver 实践之 jvm调优
其中5分钟任务有2个,小时任务有20个以上,晚上执行的任务有6个.任务并不多,都是使用
hivesql
连接到hiveserver去执行。本周曾经有2次hiveserver失效。
wf1982
·
2020-06-29 17:54
SparkSQL之一张贴告诉你什么是SparkSQL
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
王傲旗的大数据之路
·
2020-06-29 11:17
Spark
HiveSQL
解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
ming_rw
·
2020-06-29 09:19
Hive
impalasql和
hivesql
的窗口函数和根据月份时间增量取数
窗口函数和根据月份时间增量取数今天跟大家分享一下窗口函数举个例子:假设当前环境为impala,droptableifexistsdw.stu;----dw库中的stu表-------------------createtabledw.stu(fperiodstringcomment’年月’,namestringcomment’姓名’,ageintcomment’年龄’,salarydoubleco
全能小孩
·
2020-06-29 08:31
原创作者
hive sql 实现 时间循环
实现效果:
hivesql
实现:–根据开始时间和结束时间生成时间段内所有时间selectregexp_replace(date_add(dt,row_number()over(orderbydt)-1),
西西南偏南
·
2020-06-29 08:26
hbase
hive
大数据
hive
sqoop
flink SQL 外关联
flinkSQL的底层解析用的是apachecalcite,
hiveSQL
也用的calcite解析,因此flinkSQL的大致原理和我们常见的sql差不
呔 小怪兽休走
·
2020-06-28 22:53
scala
算法人必懂的Hive知识-四道Hive面试&笔试题解析
近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的
HiveSQL
问题,Hive作为算法工程师的一项必备技能,在面试中也是极有可能被问到的,所以有备无患,本文将对这四道题进行详细的解析,还是有一定难度的
悄悄的努力
·
2020-06-28 21:26
hive学习二
主要是想了解一下和
hivesql
是如何转换成mapreduce任务的,所以开搞。这个图主要描述了hive对于各种参数如-e、-f等参数的解析和对
hivesql
语句的完整性的处理等。
想什么就写什么
·
2020-06-28 21:47
HiveSQL
优化
HiveSQL
优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了(没有之一的那种),单独写MapReduce任务的应该不多了,主要还是用的
HiveSQL
一直青蛙
·
2020-06-28 20:44
BigData
hive精选50题
Hivesql
语句必练50题-入门到精通(1)spark-shell–masterspark://node1:7077–executor-memory1g–total-executor-cores2–jars
浮生若梦1379
·
2020-06-28 20:39
hive
Hive学习之路 (一)Hive初识
Hive简介什么是Hive1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(
HiveSQL
)查询功能5、底层数据是存储在
weixin_33704234
·
2020-06-28 03:03
Pandas处理大数据的一些小技巧
近期的工作和
HiveSQL
打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享近期的工作和
HiveSQL
打交道比较多
weixin_33682719
·
2020-06-28 03:23
[大数据面试题]hadoop核心知识点
*这里不涉及
HiveSQL
和HBase操作的笔试题,这些东西另有总结。1.MR意义。MR是一个用于处理大数据的分布式离线计算框架,它采用”分而治之“的思想。
weixin_30750335
·
2020-06-28 00:25
hive数据类型及其数据转换
由于需要使用
hivesql
进行数据查询,同时涉及多个不同类型的字段的组合,看
Hivesql
的文档相关和资料才知道,hive是支持大部分基础数据类型之间的相互转换的。
weixin_30730151
·
2020-06-28 00:28
hive引擎的选择:tez和spark
问题&&不便tez:在
hivesql
中使用了union或join操作tez会将任务切分,每个小任务,创建一个文件文件夹,如下:这就会造成一个非常严重的问题,假如这张表的下文,使用这张表没有用tez,而是使用
weixin_30709061
·
2020-06-27 23:31
HiveSQL
解析过程详解
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
weixin_30487317
·
2020-06-27 20:04
hiveSql
常见错误记录
1.Instrictmode,ifORDERBYisspecified,LIMITmustalsobespecified.这个错误提示是因为在hive下写的sql使用了orderby对数据进行数据排序,因为orderby事实上是全局排序,因此,在reduce阶段仅为一个reduce做汇总,为此,数据量庞大,在hive的严格模式下禁止全局排序的。两种解决方案更改hive严格模式设定sethive.m
weixin_30375427
·
2020-06-27 18:06
Hadoop Hive sql语法详解
分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL去查询分析需要的内容,这套SQL简称
HiveSQL
weixin_30355437
·
2020-06-27 18:47
HiveSQL
解析过程详解
HiveSQL
解析过程详解Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。
ljtyxl
·
2020-06-27 08:09
bigdata
一、
HiveSQL
基本操作
文章目录一、Hive数据类型1、基本类型2、复杂类型二、存储格式1、textfile2、SequenceFile3、RCFile4、ORCFile5、Parquet三、操作数据库1、创建数据库2、删除数据库3、进入数据库四、操作表属性1、显示数据库下面所有表2、删除表3、显示建表结果4、显示表分区5、修改表属性6、表重命名7、新增列8、删除列9、修改列10、删除分区11、增加分区12、修改分区、L
Wells·Lee
·
2020-06-27 05:50
【Hive】
hive表自增列实现方法(完全实现表中数据自增列唯一)之优化一(加快文件处理速度,已经非常非常快了)
Hive表自增列的实现,我在网上找了好久,大都是自己编写UDF(或者是UDAF/UDTF)之类的,或者是直接使用hive的lib库中提供的jar包,加载之后创建方法,然后在
hivesql
中调用,不过这些都会遇到一个问题
第一片心意
·
2020-06-27 04:22
hive
java
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他