E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
【Hive】学习与优化2(含常用面试)
目录hive的查询注意事项以及优化总结
hivesql
分组拼接同一列的字符串/分组多行拼接为一行hive分组取随机数Hive随机取某几行数据HiveNtile分析函数学习,用来取前30%带有百分之多少比例的记录
sdbhewfoqi
·
2023-08-09 05:26
Hive
&
Sql
&
Spark
hive sql计算分位数
在观察数据的大致分布时,分位数是个常用的统计值,下面介绍在
hivesql
中计算分位数的语法
hivesql
中计算分位数的函数:PERCENTILE_APPROX(适用于大数据量)使用格式:--以数组形式返回多个百分位近似计算结果
Sophia要一直努力
·
2023-08-09 05:26
数据分析
sql
Hive SQL优化
HiveSQL
优化案例一:1.1将要执行的查询(执行了1个多小时才出结果):SELECTdtasDATA_DATE,STRATEGY,AB_GROUP,SOURCE,count(distinctcasewhenlower
程默子弹
·
2023-08-09 05:55
hive
sql
HiveSQL
分位数函数percentile()使用详解+实例代码
前言作为数据分析师每个SQL数据库的函数以及使用技能操作都得点满,尤其是关于统计函数的使用方法。关于统计出数据的中位数,众数和分位数的方法必须掌握几种,一般在实际业务上大部分都是以写SQL查询为主,因为如果想用Python的Pandas去做数据分析还得将数据导出来读出来,输出了结果还得再倒进去,十分的麻烦。若是能在SQL上面直接处理简单问题,那么效率要远高于导出做Pandas处理。本篇文章主要介绍
小二上酒8
·
2023-08-09 05:54
pandas
python
数据分析
开发语言
java
docker 安装hive
docker-compose配置docker国内镜像源(可选)安装git&配置github部署Hivedocker-hive开始部署使用Hive命令行收尾工作安装vi、lrzsz关闭相关命令END参考链接写在前面想练练
HiveSQL
LuckyTHP
·
2023-08-08 20:48
docker
hive
容器
kettle之Switch/Case 插件
Switch/Case插件存在于转换中,用于进行分支选择插件运行下一步的表输入中执行
hivesql
需选上下面红色方框的,否则Switch/Case分支不生效!
小亚文
·
2023-08-08 18:42
kettle-教程
hive编程指南
大数据
Hive中带条件查询时报Class org.apache.hive.hcatalog.data.JsonSerDe not found的错误及解决办法
先放一些测试的JSON文件到HDFS的/tmp/test_json目录下,然后打开HUE界面,进行
HiveSQL
执行窗口,先创建一个基于JSON文件的外部表:CREATETABLEjson_table(
zxfBdd
·
2023-08-06 11:06
Hadoop
CDH
hive
HIVE学习
大白话:HIVE就是一个类似于Navicat的可视化客户端,2.HIVE本质Hive是一个Hadoop客户端,用于将HQL(
HiveSQL
)转化成MapReduce程序。
叫我莫言鸭
·
2023-08-06 07:40
大数据
hive
hive
学习
hadoop
Hive-Transform-Python:快捷的Map/Reduce
简介首先简要介绍一下
hivesql
语句的编写逻辑以及python脚本的编写方法。
zhaif
·
2023-08-05 10:20
《大数据开发》Hive
Hive是基于Hadoop的一个数据仓库工具;提供Sql(
hiveSql
)查询功能;数据是存储在hdfs上,hive本身不存储数据,构建表的逻辑存在指定数据库(mysql)。
Steve_Abelieve
·
2023-08-01 12:40
大数据
hadoop
hive
hive sql面试题及答案
hivesql
面试题及答案本文所有展示了输出结果的sql都是我自己编写的,很可能不是最优解请谨慎参考。
顺风飘千里
·
2023-07-29 17:10
一百三十六、Azkaban——Azkaban3.84.4单机版安装
一、目的为了调度
HiveSQL
任务,安装azkaban任务调度器二、jar包准备azkaban-db-3.84.4.tar.gzazkaban-exec-server-3.84.4.tar.gzazkaban-web-server
天地风雷水火山泽
·
2023-07-29 05:20
大数据调度工具
azkaban
153-184-spark-核心编程-sparksql
兼容hive:可直接运行sql或者
hivesql
。标准jdbc连接,统一的数据访问DataFrame和DataSet的区别DataFrame是什么:DataFrame是以RDD为基础的分
镇魂Boby
·
2023-07-29 04:48
java
大数据
spark
spark
大数据
分布式
Python计算日期差
在
hivesql
建表的时候比较容易用到需要计算时间差,这个时候可以用python中的date进行计算。
塔芙尔
·
2023-07-27 13:14
HiveSQL
& SparkSQL中常用知识点记录
2.Hive中选出最新一个分区中新增和变化的数据3.Hive中使用sort_array函数解决collet_list列表排序混乱问题4.SQL中对小数位数很多的数值转换成文本的时候不使用科学计数法5.
HiveSQL
电光闪烁
·
2023-07-26 10:27
开发随笔
大数据
SparkSQL
HiveSQL
数据仓库发展历史
从平台化到智能(AI)化二、第一代(过时)第一代数据仓库演化:需求驱动的分层架构第一代数据仓库的核心思想是根据需求分析和业务模型构建分层架构,使用工具如Hive实现数据的汇聚和整合,如下图:一代数据仓库大多通过
HiveSQL
高世之智
·
2023-07-24 22:03
数据仓库
数据仓库
hive
数仓发展史
大数据
数据库
HiveSQL
和SparkSQL的区别和联系
一、SparkSQL和Hive对比二、
HiveSQL
和SparkSQL的对比sql生成mapreduce程序必要的过程:解析(Parser)、优化(Optimizer)、执行(Execution)三、spark
万里长江横渡
·
2023-07-22 14:52
大数据
hive
hadoop
大数据
hivesql
多行转多列
witht1as(select1asstudent,"math"asck,3assubunionallselect3asstudent,"math"asck,3assubunionallselect5asstudent,"math2"asck,4assub)selectstudent,max(ck_pv)asmath,max(ck2_pv)asmath2from(selectstudent,if(
杨玉庆
·
2023-07-22 14:19
hive
sql
hive
hive转置数据(多列转换为多行)
1.目标:将如下表格的多列数据idyesno00121890021165转换为下表的多行形式:idboolvalue001yes21001no89002yes11002no652.实现:
hiveSQL
:
Junzh821
·
2023-07-22 14:14
HIVE
HIVE
hive笔记(二)
hivesql
中lateralviewexplode/json_tuple的使用-CSDN博客https://blog.csdn.net/yuanyangsdo/article/details/61192275
hello琳123
·
2023-07-22 01:59
大数据
HiveSql
面试题
1.面试题汇总1.1连续登陆3天以上的用户(字节面试题)INSERTINTOt1(id,dt)VALUES(1,'2019-01-0100:00:00'),(1,'2019-01-0200:00:00'),(1,'2019-01-0300:00:00'),(3,'2019-03-0700:00:00'),(2,'2019-02-0100:00:00'),(2,'2019-02-0200:00:00
在路上的小y
·
2023-07-21 14:41
sql
数据库
【Hive】从执行计划DAG中执行慢的Task,找到对应SQL逻辑片段
**【Hive】从执行计划DAG中执行慢的Task,找到对应SQL逻辑片段**一个稍微复杂的
HiveSQL
,在执行过程中发现某个Task非常慢,怎么去定位这个Task是属于哪段SQL逻辑呢对于如下逻辑的一个
我是小小帅
·
2023-07-19 17:10
hive
spark
sql
hive
大数据
spark
Hive概述
-了解什么是Hive-了解为什么使用Hive####1.1什么是HiveHive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
Wzideng
·
2023-07-19 15:13
#
hive
hive
hadoop
数据仓库
Hive优化实践1-数据倾斜及join无关的优化
HiveSQL
的各种优化方法基本都和数据倾斜密切相关。
多彩海洋
·
2023-07-18 19:59
Hive SQL常用语法使用及示例
以下内容均基于
HiveSQL
语法。
曾哥数据分析
·
2023-07-18 08:49
Hive
SQL
常用命令
窗口函数
hive底层原理 sql执行过程_[Hive]
HiveSQL
解析原理
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
weixin_39605835
·
2023-07-18 08:48
hive底层原理
sql执行过程
HiveSQL
脚本传参&使用
一、基础语法运行hive命令时,如果想动态传入参数,可以使用如下2种方式:参数格式说明--hivevar传参数,专门提供给用户自定义变量--hiveconf①传参数;②覆盖hive-site.xml中配置的hive全局变量二、测试验证测试目标根据动态传入的省份参数,去查询不同省份的人口数据库准备测试脚本test.hql:--数据库前的省份限定字符,根据外部参数传入use${传入的地域}db_pop
江畔独步
·
2023-07-18 08:44
Hive
hive
sql
big
data
在shell中使用
hiveSQL
的注意事项
运行
hiveSQL
的方式有以下几种。1.hive交互式命令行即在shell环境下直接使用hive命令,当屏幕下方出现hive>时,就进入了hive的环境,如下图所示。
超哥的杂货铺
·
2023-07-18 08:13
linux
shell
大数据
python
java
Hive Sql中六种面试题型总结
HiveSql
中六种面试题型总结一.常用函数二、N日留存1.思路分析三、连续登陆1.数据准备2.思路分析一3.思路分析二四、TopN1.数据准备2.思路分析五、行列互转1.行转列2.列转行3.经典面试题一六
lightupworld
·
2023-07-18 08:43
Hive
hive
sql
面试
HiveSQL
编程模板及注意事项
目录0引言1模板代码2代码分析及注意事项0引言hive是数据仓库、数据分析人员必用的工具之一。实际工作中,使用hive很多时候都是在将SQL代码封装在shell脚本之下运行,这是一种常见的方式,方便调度工具调度shell脚本。1模板代码#!/bin/bashlastday=`date--date'-1days'+%Y-%m-%d`#获得昨天的日期if["$2"!=""];thenlastday=$
莫叫石榴姐
·
2023-07-18 08:42
hive
sql
hive
shell
大数据
一百三十、海豚调度器——用DolphinScheduler定时调度
HiveSQL
任务
一、目标用海豚调度器对Hive数仓各层数据库的SQL任务进行定时调度。比如,DWD层脱敏清洗表的动态插入数据、DWS层指标表的动态插入数据二、工具版本1、海豚调度器:apache-dolphinscheduler-2.0.5-bin.tar.gz2、Hive:apache-hive-3.1.2-bin.tar.gz三、实施步骤(一)在海豚调度器的数据源中心模块创建Hive各数据库的数据源第一步,点
天地风雷水火山泽
·
2023-07-18 07:31
大数据开发工具
Hive
海豚调度器
hive
大数据
数据血缘 参考资料文章汇总
字节跳动内部的数据血缘用例与设计全链路数据血缘在满帮的实践饿了么元数据管理实践之路携程数据血缘构建及应用https://www.jianshu.com/p/6a14c846e331
HiveSQL
血缘关系解析与应用虽然没有公布完整代码
mizuhokaga
·
2023-07-16 21:25
数据血缘
自言自语
sqllineage解析sql列级血缘并提交到datahub
目录版本信息操作记录安装datahubv0.10.0datahub快速部署元数据摄取通过sqlline获取指定sql文件中
HiveSQL
的字段级血缘关系,并将结果提交到datahub版本信息python3.8.16datahubv0.10.0
LCriska
·
2023-07-16 14:00
python
大数据
hive
sql
数据库
关于sql查询的一些事
hiveSql
.sh脚本hive-e"insertintotabletest.sudianselectsplit(a.key,'_')[0]asdeviceid,(casewhenwatchtime10800000then300000elsewatchtimeend
会飞的蜗牛66666
·
2023-07-14 04:05
HiveSQL
迁移 FlinkSQL 在快手的实践
摘要:本文整理自快手数据架构工程师张芒,阿里云工程师刘大龙,在FlinkForwardAsia2022生产实践专场的分享。本篇内容主要分为四个部分:Flink流批一体引擎FlinkBatch生产实践核心优化解读未来规划点击查看原文视频&演讲PPT一、Flink流批一体引擎1.1Lambda架构首先,介绍一下我们选择Flink作为流批一体引擎的思考。如上图所示,是现在生产应用最广的Lambda架构,
·
2023-07-13 15:14
后端flink大数据实时计算
hiveSQL
中like,not like,rlike, regexp的区别和使用详解(点赞收藏使用!)
目录1-like的使用详解1.1-语法规则1.2-操作类型1.3-使用描述1.4-案例演示1.5-注意事项2-rlike比较符使用详解2.1-语法规则2.2-操作类型2.3-使用描述4-NOTALIKEB与AnotlikeB4-关于like与rlike,notlike,likenot的使用对比总结5-regexp的用法和rlike一样1-like的使用详解1.1-语法规则格式是AlikeB,其中A
KG大数据
·
2023-06-23 11:13
SQL强化进阶
hive
sql
数据仓库
大数据
面试
SQL进阶--2__如何使用
hiveSQL
统计字符串中字符的个数
目录0-需求1-分析2-总结0-需求统计在字符串"HELLOHELLO"中出现了多少个LL1-分析分析思路(1)用regexp_replace()函数将要计算的字符替换为’'selectregexp_replace("HELLOHELLO","LL",'')0:jdbc:hive2://10.9.4.117:10000>selectregexp_replace("HELLOHELLO","LL",
KG大数据
·
2023-06-23 11:42
SQL强化进阶
sql
hive
数据仓库
大数据就业路线
数仓:主要以SQL语言为主离线数仓(目前基本状态)和实时数仓(趋势)SQL语法包括mysql中的sql、hive中的
hivesql
(重点),spark中的sparksql,flink中的flinksql
烟雨孤舟
·
2023-06-23 06:25
大数据
HiveSQL
在使用聚合类函数的时候性能分析和优化详解
带聚合函数的SQL逻辑,我们可以根据其执行过程的不同,将其分成三大类来进行分析:仅在Reduce阶段聚合的SQL执行逻辑在Map和Reduce阶段都有聚合操作的SQL执行逻辑高级分组聚合的执行SQL逻辑
鲁边
·
2023-06-21 11:00
Hive SQL:DDL建库 建表
HiveSQL
:DDL建库/建表
HiveSQL
数据库建库数据库在Hive中,默认的数据库叫做default,存储数据位置位于HDFS:/user/hive/warehouse用户自己创建的数据库存储位:
Rkun18
·
2023-06-19 06:01
#
大数据
hive
hadoop
数据仓库
数据仓库技术与Hive入门
文章目录数据仓库基本概念场景案例主要特征主流开发语言-SQL数仓开发语言概述SQL语言介绍结构化数据SQL语法分类ApacheHive入门ApacheHive安装部署元数据
HiveSQL
语言数据仓库基本概念数据仓库
北山啦
·
2023-06-18 08:28
数据仓库
hive
大数据
Hive-
hivesql
粗略操作
hivesql
1建表createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'storedastextfilelocation
:Concerto
·
2023-06-17 11:33
hive
hadoop
hivesql
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
ZeppelinJDBCIntercepter对于Hive数据进行查询过程中,如果遇到非常复杂的sql,查询效率是非常慢比如:selectdt,count(*)fromtablegroupbydt做过数据开发的同学都知道,在
hivesql
诸葛子房_
·
2023-06-15 12:59
Apache
Zeppelin
apache
缓存
hive
hive sql 向上取整、向下取整、保留小数位的函数
hivesql
向上取整、向下取整、保留小数位的函数向上取整函数:ceiling()示例:selectceiling(10.1)结果:11向下取整函数:floor()示例:selectfloor(10.9
今天菜里有肉
·
2023-06-14 20:40
数据库
sql
hive sql 给查询结果添加序号
hivesql
给查询结果添加整体序号、查询结果分组添加组内序号1、需要的函数及关键字:ROW_NUMBER()函数OVER()函数PARTITIONBYORDERBY1.1ROW_NUMBER()函数将针对
今天菜里有肉
·
2023-06-14 20:40
数据库
hive
sql
阿里云
hivesql
特殊类型数据处理
特殊类型数据处理**一、**string类型列字段炸列,如下图,protest字段列为string类型,数据内容中的产品由特定符号分隔,为方便数据使用需要将protest列炸开。语句:lateralviewexplode(split(protest,‘,’))1、利用split将对protest进行分割,返回数组类型,例:selectsplit(“a,b,c”,“,”);–返回[a,b,c]。(h
今天菜里有肉
·
2023-06-14 20:40
数据库
hive
hive sql 替换指定的字符串
hivesql
替换指定的字符串示例:aa/bb/c#目的:将字符串’aa/bb/c#‘中的符号’#‘替换为指定字符’f’;函数:regexp_replace(a,b,c),参数a:目标字符串,参数b:需要被替换的字符
今天菜里有肉
·
2023-06-14 20:09
数据库
hive
sql
[Hadoop]数据仓库基础与Apache Hive入门
SQLApacheHive入门ApacheHive概述场景设计:如何模拟实现Hive功能ApacheHive架构、组件ApacheHive安装部署ApacheHive元数据Hive3安装ApacheHive客户端使用
HiveSQL
热咖啡不太冷
·
2023-06-14 18:02
数据仓库
hive
hadoop
2.淘宝购买行为分析项目——Hive查询、Sqoop的介绍与使用、SQLyog的安装与使用、Superset的概述与安装使用
selectitem_id,count(user_id)sale_numfromto_user_loggroupbyitem_idorderbysale_numdesclimit10**查询当前的
HiveSQL
想成为数据分析师的开发工程师
·
2023-06-14 10:14
Hadoop大数据分析项目
hive
hadoop
大数据
数据仓库
数据库
HiveSQL
基础练习题
HiveSQL
基础练习题1.环境准备1.1建表语句1.2数据准备1.3插入数据2.查询2.1查询姓名中带“华”的学生名单2.2查询姓“王”老师的个数2.3检索课程编号为“04”且分数小于60的学生学号,
sheygshsi
·
2023-06-14 04:15
hive
数据仓库
HiveSQL
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他