E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
HIVESQL
数据倾斜干货
数据倾斜的几种常见场景:1.distinct2.groupby3.reducejoin4.动态分区1可以转换到2,2可以加参数就可以解决,原理在于预处理参数:sethive.groupby.skewindata=true;--如果是groupby过程出现倾斜应该设置为true,这种方法会启动两个job,第一个job会在key前面添加一个随机数,将数据散列到reduce中,第二个job就是将key前
txs小山
·
2020-08-18 10:41
HIVE数据倾斜
HIVE SQL中13位毫秒时间戳转化为标准日期
HIVESQL
中13位毫秒时间戳转化为标准日期from_unixtime(BIGINTunixtime[,STRINGformat])from_unixtime函数使用时间戳单位必须是秒create_time
_5K_
·
2020-08-18 06:41
HIVE
日期转换
hivesql
[转]StringtoDateconversioninhive-在Hive中各种字符串转换成日期格式【hive日期函数】Hive常用日期函数整理Hive日期格式转换用法整理有参考上述文章,仅供学习,感恩知识共享~current_date:当前日期selectcurrent_date();--输出:2020-07-23current_timestamp:当前时间戳selectcurrent_time
小赋自留地
·
2020-08-16 08:36
sql
分区太多引起的内存溢出
执行一个
hivesql
时报了一个下面的错误,从错误堆栈上来看,是在SQL编译、解析、优化过程中出的错,还没有提交到YARN上执行。
鸣宇淳
·
2020-08-15 22:10
Hive
Hive中文乱码解决
Hive中文乱码解决在练习
Hivesql
语句时,发现中文插入乱码。
xxydzyr
·
2020-08-14 22:17
从零开始Hadoop
Hadoop
#Hive
hadoop Unhealthy Nodes问题解决
1、问题来源前几天因为一个
hiveSQL
的问题,导致其中一台机器的磁盘空间不足,删除临时文件解决了空间不足的问题;查看http://hadoop/cluster/nodes/unhealthy发现出现了一个
lazythinker
·
2020-08-14 17:38
hadoop
HiveSQL
常用优化方法全面总结
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。以我们的日历记录表
jiedaodezhuti
·
2020-08-14 17:34
hive
hive
Hive SQL之分区表与分桶表
Hivesql
是Hive用户使用Hive的主要工具。
HiveSQL
是类似于ANSISQL标准的SQL语言,但是两者有不完全相同。
weixin_30293135
·
2020-08-14 11:12
HiveQL--随机生成日期
随机生成从某年某月某日到某年某月某日的日期例如随机生成从‘2017-05-01’到‘2018-05-31’的日期,可以使用如下
HiveSql
语句:selectid_card_no,card_name,date_add
Sun_Sherry
·
2020-08-14 01:55
SQL
HiveSQL
优化总结
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。目录列裁剪和分区裁剪谓词下推sortby代替orderbygroupby代替distinctgroupby配置调整m
Share-Get
·
2020-08-11 23:10
Hive
Hive SQL 练习
前言本章主要,转载一篇
HiveSQL
的一些练习题.做一做,练习下做业务的能力.本文相关资源,可在我的Github项目https://github.com/SeanYanxml/bigdata/目录下可以找到
在风中的意志
·
2020-08-10 01:18
14.
大数据
-------14.8.
Hive
&
Pig
HiveSQL
解析过程详解
HiveSQL
解析过程详解Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。
Dancy_DD0421
·
2020-08-09 15:49
大数据学习
hive SQL语句执行过程
hiveSQL
语句执行过程背景了解:hive数仓数据存储于Hadoop大数据框架的HDFS文件系统中,以文件的方式存储,hive是建立在Hadoop之上的数仓工具,hive将文件数据映射成结构性数据-表
松子-招财猫
·
2020-08-09 01:09
hive
hive
大数据
大数据案例 -- App数据分析
文章目录1.项目需求2.flume采集数据3.预处理4.导入数据到hive5.hive数据仓库etl(各种
hivesql
编写)6.数据迁移sqoop7.web展示系统开发1.项目需求网站、app的运营者需要知道自己的产品或服务的运营状况
Cool_Pepsi
·
2020-08-08 12:21
大数据
大数据
数据分析笔试经典sql题解
前言:sql是数据分析师笔试必考的考点之一,常考的题型有行列转换、联表查询,这些都比较简单,一般考的最难的就是
hivesql
窗口函数联表查询,普通的聚合函数每组(Groupby)只返回一个值,而窗口函数则可为窗口中的每行都返回一个值
joychun
·
2020-08-08 11:39
大数据分析平台的演进之路
1、石器时代大数据技术刚起步时平台架构很简单,数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive,然后通过
HiveSQL
语句统计分析,结果导入到MySQL,最后形成报表展示。
Zen of Data Analysis
·
2020-08-07 13:13
大数据
使用docker快速搭建hive环境
docker-compose配置docker国内镜像源(可选)安装git&配置github部署Hivedocker-hive开始部署使用Hive命令行收尾工作安装vi、lrzsz关闭相关命令END参考链接写在前面想练练
HiveSQL
upupfeng
·
2020-08-07 13:00
《离线和实时大数据开发实战》_Hive原理实践_读书笔记
即使不会java编程1、离线大数据处理的主要技术:Hive1.2、Hive出现背景Hive是Facebook开发并贡献给Hadoop开源社区的;Hive是建立在Hadoop体系架构上的一层SQL抽象;
HiveSQL
Imflash
·
2020-08-07 09:11
看书笔记
Spark学习总结——SparkSQL、DataFrame详解代码示例
除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的
HiveSql
可以直接进行迁移至Shar
System_FFF
·
2020-08-05 17:44
大数据进阶之路
Hive 史上最全面的大数据学习第九篇(四) Hive Sql 操作 今天的你也要加油啊
Hive概述&安装方式详解Hive表操作Hive表分类
HiveSql
操作Hive自定义函数HiveOnHBase五、
HiveSQL
操作5.1Select语句使用正则表达式指定列createtablelogs
热忱 ㅤ ㅤ
·
2020-08-05 10:36
大数据笔记
2019拼多多秋招学霸批(数据分析)笔试整理----
hivesql
拼多多秋招学霸批(数据分析)笔试7.28第二题:第二题:表的结构如下:User_idcreatetimeoprationcookie1,2015-04-10,Acookie1,2015-04-11,Bcookie1,2015-04-12,Ccookie1,2015-04-13,Acookie1,2015-04-14,Bcookie1,2015-04-15,Acookie1,2015-04-16,A
wdhQAQ
·
2020-08-04 21:19
sql
hive
查询各科成绩的前三名的学生
利用
hiveSQL
实现:学生的成绩–数据:小兰语文87小兰数学90小兰英语70大海语文77大海数学87大海英语54小明语文79小明数学84小明英语70小红语文93小红数学82小红英语67建表语句:createtabletscore
有风微冷
·
2020-08-03 11:34
hive
hive常见习题解析
hive常见习题解析已有shop_id,item_id,num三列,使用
HiveSQL
计算得到a,b列(温馨提示:按照shop_id分组,a为num值/每组num的和,b为a的组内排序)解析:建表createtableshops
我玩的很开心
·
2020-08-03 10:51
hive常见习题
hive
数据库
HiveSQL
的字符切分:substr与instr的完美结合
在sql查询中,诸如substr,left,right等字符切分函数的应用场景非常大,只需要指定字符,开始序位,结束序位就能很方便的切分得到我们想要的结果,但是对于数据序位不统一的,比如一个name字段里有%test1#,%test#,%fshkfjdshfkds#,我们想要两个%里的结果,只不过%的序位不是唯一的,就不能直接substr了这时候就需要我们的强大函数instr,该函数是返回某字符在
江楼月美人
·
2020-08-03 02:20
sql开发进阶
大数据弄潮儿
SparkSql -- DataFrame和DataSet
SparkSql–DataFrame和DataSet1.什么是sparksqlHive将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce
ITgagaga
·
2020-08-02 21:27
Spark
Hive-1 数仓和Hive基本概念
基本概念数仓基础知识数仓基本概念数仓特点数仓和数据库的主要区别OLTP和OLAP数据仓库的分层架构数据仓库分层的目的数仓的三层架构数仓的四层架构ETLHive概念Hive和数据库的区别Hive的优缺点Hive框架原理
HiveSQL
爱吃甜食_
·
2020-08-02 12:39
Hive
BAT机器学习特征工程工作经验总结(一)如何解决数据不平衡问题(附python代码)
其实大部分人都是在跑数据,各种map-reduce,
hiveSQL
,数据仓库搬砖,数据清洗、数据清洗、数据清洗,业务分析、分析case、找特征、找特征…而复杂的模型都是极少数的数据科学家在做。
weixin_bread2008
·
2020-08-01 05:44
机器学习工作经验总结
SparkSQL:基础概念
与
HiveSql
的区别:
HiveSQL
是通过转换成MapReduce任务,然后提
Icedzzz
·
2020-07-31 15:13
Hive 简单udf入门--自然周差异计算
Hivesql
与我们普通使用的sql基本差异不大,但在大数据领域往往存在很多未知的需求,所以往往都有一个支持自定义功能函数编写的口子,让用户实现其特定的需求。
等你归去来
·
2020-07-31 13:00
HIVE SQL使用字符函数 instr 的问题(参数只有两个)
117.136.2在oracle,可以使用如下语句:selectsubstr('117.136.2.165',1,instr('117.136.2.165','.',1,3)-1)fromdual;但是,在
hivesql
vatermutter
·
2020-07-30 20:04
数据库
hiveSQL
基本语句一:语句执行顺序from>where>group by>having>select>order by
一、基础语法1.1、select…from…where…注意:对于分区表,严格模式下,where必须对分区有描述未描述报错如下:selectuser_namefromuser_tradelimit10;FAILED:SemanticException[Error10056]:Queriesagainstpartitionedtableswithoutapartitionfilteraredisab
菜菜抱富
·
2020-07-30 20:19
hive
hadoop
sparkSQL入门
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
pxjwfy
·
2020-07-30 18:22
hive中的时间函数
hive中的时间处理函数
HiveSql
中的时间处理函数与标准的SQL有些差别,其中差别最大的是对标准时间的处理,hive中常见到标准时间(即1970年1月1日到当前时间的秒数),而Oracle中基本没有这类的用法
Sirius02
·
2020-07-30 17:20
hive
hiveSql
时间函数
hiveSql
时间跟标准的sql有些差别,主要是时间戳的转换日常用的时间函数有以下几种:unix时间戳转日期函数:from_unixtime语法:from_unixtime(bigintunixtime
Sirius02
·
2020-07-30 17:20
hive
【hive问题】FAILED: ParseException line 19:69 Failed to recognize predicate 'timestamp'. Failed rule: 'i
ParseExceptionline19:69Failedtorecognizepredicate'timestamp'.Failedrule:'identifier'intableorcolumnidentifier咋使用
hivesql
张晓辉☝✔♫
·
2020-07-30 06:04
hive:查找重复的记录
真是服了我自己了,过了个新年,连
hiveSQL
都忘记怎么写了。这回记录到博客上面吧,这回要牢牢的记住。
雨霁赤赤
·
2020-07-29 22:29
hive
HIVE SQL优化的两个思路
上一篇我们介绍了关系型数据库SQL的优化主要是索引和减少数据量,本文以大家常用的
HIVESQL
为基础来介绍如何优化SQL的运行速度。
DATASQL数据糖
·
2020-07-29 11:17
SQL优化
大数据
大数据
hive
hadoop
Hive学习-高级版五(压缩和存储)
hive的压缩本质上指的是MapReduce的压缩,因为hive其实就是MapReduce的高级语言版(SQL),
hiveSQL
底层的运行也都是解析成MapReduce程序去运行的。
刘子栋
·
2020-07-29 06:22
大数据SQL执行工具调研总结
下面是这几天来我对于hiveonmr/hiveonspark/impala/presto/spark-sql做的调研之后做的总结,见以下矩阵:武器库优点缺点
HiveSql
支持度UDF支持hiveonmr
唔系小老虎
·
2020-07-29 00:35
分布式计算
自己总结心得
hive SQL优化之distribute by和sort by .
http://yaoyinjie.blog.51cto.com/3189782/703873最近在优化
hiveSQL
,下面是一段排序,分组后取每组第一行记录的SQLINSERTOVERWRITETABLEt_wa_funnel_distinct_tempPARTITION
xiaomulin2005
·
2020-07-29 00:20
hadoop
阿里云odps基本语法
odpssql:与
hivesql
语法基本一致odpscmd.batSQL语句不分大小写,使用“–”进行注释,使用分号作为语句结束符号数据定义语言(DDL),数据操作语言(DML),数据控制语言(DCL)
weixin_33711641
·
2020-07-28 17:16
hive on spark 利用maven重新编译spark
缘由:使用hiveonspark进行
hivesql
操作的时候报以下错误:Failedtoexecutesparktask,withexception'org.apache.hadoop.hive.ql.metadata.HiveException
卢子墨
·
2020-07-28 02:30
Spark
Hadoop(3)__Hive安装过程与hive sql初步使用
HIVE是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射成一张表,并提供类SQL的查询语句,其SQL操作的基本原理是MapReduce,在本文最后的例子中,可以发现在某些操作时,
HiveSQL
JeangLee
·
2020-07-28 02:50
hadoop
HiveSQL
使用总结笔记
文章目录@[toc]DDL操作建表`CREATETABLE``EXTERNAL``LIKE``COMMENT``ROWFORMAT``STOREDAS`创建简单表:创建外部表:建分区表建Bucket表创建表并创建分区字段ds复制一个空表例子显示所有表:修改表结构表添加一列:添加一列并增加列字段注释更改表名:删除表:增加、删除分区增加删除修改列的名字、类型、位置、注释:增加/更新列增加表的元数据信息
云之君兮鹏
·
2020-07-27 11:22
数据库学习笔记
HIVESQL
中ROW_NUMBER() OVER语法以及示例---根据某字段值相同取另一字段最大值的所有行
数据如下:IDNAMEPIDCREATE_TIME------------------------------1张三A2018-1-12李四A2017-1-13王五B2017-12-12希望的查询结果(相同PID只取CREATE_TIME最大的行):IDNAMEPIDCREATE_TIME------------------------------1张三A2018-1-13王五B2017-12-1
小矶鹬
·
2020-07-16 05:26
数据库
Spark SQL运行原理解析
SparkSQL和mysql、
hivesql
从SQL规范来说都一样引擎:sparksql底层执行是spark,执行效率高,分布式mysql底层执行是InnoDB,当然还有其他的引擎,单节点执行
hivesql
luo981695830
·
2020-07-16 02:31
大数据
spark
hive
sparkSQL相关应用案例
目录1、sparksql操作
hivesql
2、sparksql操作jdbc数据源3、sparksql保存数据操作4、sparksql中自定义函数5、sparksql整合hive6、sparksql处理点击流日志数据案例
fengge18306
·
2020-07-15 22:28
Spark SQL编程指南(Python)【转】
转自:http://www.cnblogs.com/yurunmiao/p/4685310.html前言SparkSQL允许我们在Spark环境中使用SQL或者
HiveSQL
执行关系型查询。
dianzhouyu2189
·
2020-07-15 22:04
【每日一练:SQL】Hive SQL求每一年最大气温的日期+温度
HiveSQL
求每一年最大气温的日期+温度
HIVESQL
题:求每一年最大气温的日期+温度,具体数据如下:2014010114201401021620140203172014010410201403050620120106092012010732201201081220120109192012011023200102011620010102122001050310200101041120010105
debimeng
·
2020-07-15 22:21
每日一练
蒙夛的每日一练(SQL
逻辑等)
Hive统计连续登录n天的用户登录信息
前言Hadoop:2.7.7Hive:2.3.0本文主要练习如何使用
HiveSQL
统计练习登录n天的用户登录信息,主要使用窗口函数。
TomAndersen
·
2020-07-15 19:22
Hive
数据仓库
SQL
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他