E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
四万字Hive调优全方位指南(推荐收藏)
本文基本涵盖以下内容:一、基于Hadoop的数据仓库Hive基础知识二、
HiveSQL
语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、
HiveSQL
优化十二板斧六、Hive面试题(一)七、
公众号:肉眼品世界
·
2022-12-04 03:31
数据仓库
数据库
lighttpd
sharepoint
powerdesigner
HiveSQL
数据操控、查询语言(DML、DQL)
HiveSQL
数据操控、查询语言(DML、DQL)1Load——加载数据将数据load加载到表中时,hive不会进行如何转换,加载操作是将数据文件移动到与Hive表对应的位置的纯复制/移动操作。
Jaden_JH
·
2022-11-30 09:46
hadoop
big
data
hive
sql
HiveSQL
源码之语法词法编译文件解析一文详解
目录前言一、
HiveSQL
编译流程二、Antrl三、ANTLRWorks参阅前言工欲善其事必先利其器,首先要了解
HiveSQL
的编译语法的流程,还是需要懂得
HiveSQL
的执行流程以及编译规则。
fanstuck
·
2022-11-22 16:59
一文速学-SQL各类数据库操作
python
pandas
数据分析
hive
antrl
基于Python-sqlparse的SQL字段血缘追踪解析实现
目录前言一、字段血缘1.区别字段2.区别标识符序列3.功能函数设定二、字段血缘可视化点关注,防走丢,如有纰漏之处,请留言指教,非常感谢前言SQL解析和血缘追踪的研究现在差不多可以告一段落了,从8月22日写
HiveSQL
fanstuck
·
2022-11-22 16:49
sqlparse血缘解析
1024程序员节
数据库
mysql
python
sql
Hive——Hive/
HiveSQL
性能优化
文章目录Partition分区1.静态分区StaticPartition2.动态分区DynamicPartitionBucket分桶使用Spark作为执行引擎使用压缩使用ORC格式Join优化1.STREAMTABLE2.前置过滤条件3.Multi-wayJoin4.MapJoin(BroadcastJoin/Broadcast-HashJoin)5.SkewJoin基于代价的优化参考我们知道Hi
aof_
·
2022-11-18 09:21
Hive
Hive
Hive—— 1.hive架构及原理
Hive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
)查询功能,底层数据是存储在HDFS上,Hive的本质是将SQL
blueicex2020
·
2022-11-18 09:18
Hive
hive
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
本片博文是“大数据问题排查系列”之一,讲述某
HIVESQL
作业因为HIVE中的元数据与HDFS中实际的数据不一致引起的一个问题的排查和修复。以下是正文。
明哥的IT随笔
·
2022-11-12 04:59
hive
问题排查
hive
big
data
hadoop
Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单、优化结果输出等等
4.1方式一:shell命令4.2方式二:HQL(
hivesql
)4.3方式三:更新表,过滤首行(个人建议用这个SQL命令)5、每个用户有多少个订单?(分组)6、每个用户一个订单平均是多少商品?
唐樽
·
2022-11-08 10:41
大数据
Linux
大数据--学习
hive
sql
hadoop
5.1 Apache Hive DML语句与函数使用
ApacheHiveDML语句与函数使用一、HiveSQLDML语法之加载数据1、
HiveSQL
-DML-Load加载数据Load语法功能Load语法规则语法规则之filepath语法规则之LOCALLOCAL
周纠纠
·
2022-11-08 10:11
#
大数据Hadoop入门
hive
hadoop
apache
hiveSQL
执行,转化为MR过程
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。------百度百科--hive的库、表等数据操作实际是hdfs系统中的目录和文件,让开发者可以通过sql语句,像操作关系数
寒枫__梦
·
2022-11-08 10:40
hadoop-jar
hive
hadoop
mapreduce
hdfs
HiveSQL
函数优化原理
更多内容,欢迎观众公众号:livandata1、groupby的计算原理:代码为:SELECTuid,SUM(COUNT)FROMlogsGROUPBYuid;可以看到,groupby本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先groupby一次,最后再把结果merge起来,为了减少redu
算法与智能商业
·
2022-11-08 10:39
推荐算法专栏
数据库
HIVE
数据库
hive sql 基本命令总结
hive可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
。
maligebilaowang
·
2022-11-08 10:39
数据库相关(sql)
HiveSql
常用的时间维度计算方法(月初、月末、周几)及时间维度 表生成
目录0基础函数trunc()last_day()add_months()current_date()/current_datenext_daypmod()to_dateyearmonthhourdayofweekweekofyearquarterdatediffdate_adddate_subadd_monthsmonths_betweendate_format1关于月的计算1.1上月末1.2上月
莫叫石榴姐
·
2022-11-08 10:39
sql
SQLBOY1000题
HiveSql面试题
sql
数据库
Hive及Hive SQL优化
Hive及
HiveSQL
优化参考Hive/
HiveSQL
常用优化方法全面总结1.列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
hopeAnyDay
·
2022-11-08 10:39
hive
sql
HiveSQL
操作
文章目录1、SQL语言类型2、Hive的DDL操作:2.1、创建表:2.2、插入数据:2.3、修改表:2.4、删除表2.5分区2.6分桶2.7、总结3、Hive表的DQL4、Hive中的内置函数4.1、字符串处理相关4.2、JSON字符串解析4.3、聚合函数4.4、数据类型转化CAST5、Hive中的视图和索引5.1、视图5.2、索引6、Hive的日期函数时间函数6.1、Hive的日期函数6.2、
Always_Best_Sign_X
·
2022-11-08 10:08
大数据开发
hive
HiveSQL
常用优化方法经验总结
1.写在前面的话此处省略150字…2.Hive中解决数据倾斜的场景2.1大表Join小表时的数据倾斜(mapjoin) 在大表Join小表时,解决数据倾斜最好的方式是使用MapJoin,避免Shuffle,从而也避免了数据倾斜.mapjoin主要通过下面的参数来调节:#默认是truesethive.auto.convert.join=true--开启mapjoin//1.x版本及以后默认是开启的
enoughgood
·
2022-11-08 10:08
随笔
hive
大数据
4.2 Hive SQL
HiveSQL
-DDL一、
HiveSQL
语言:DDL建库、建表1、
HiveSQL
之数据库与建库SQL中DDL语法的作用Hive中DDL语法的使用数据库databasecreatedatabaseusedatabasedropdatabase2
周纠纠
·
2022-11-08 10:07
#
大数据Hadoop入门
hive
sql
数据库
Flink1.16 发布新特性
02SpeculativeExecution发现和缓解热点机器对作业的影响03HybridShuffle提供资源利用率和数据传输率04DynamicPartitionPruning过滤无用数据,提高处理效率Flink1.16Preview:
HiveSQL
京河小蚁
·
2022-11-03 10:43
flink
大数据
flink
HiveSQL
优化技巧总结
前言一、SQL语句的结构二、SQL语句的执行顺序三、HQL语句优化1.列裁剪和分区裁剪2.使用sortby代替orderby3.使用groupby代替distinct4.使用withas5.聚合操作--groupingsets、cube、rollup5.1groupingsets5.2cube5.3rollup6.unionall时可以开启并发执行7.表的join优化8.数据倾斜8.1参数调优8.
笑看风云路
·
2022-11-02 07:47
hive
数据库
hive
大数据
Spark执行
HiveSQL
以及Hive自定义函数
Spark执行Hive提示:Spark执行Hive的表只能是外表或是表不包含ACID事物的表文章目录Spark执行Hive前言一、pom.xml导入依赖执行的包二、使用步骤1.编写代码2.Spark执行脚本异常处理前言Hive一般作为大数据的数据仓库,因其语句和SQL大部分通用。所以很多数据为存储在Hive表中。提示:以下是本篇文章正文内容,下面案例可供参考一、pom.xml导入依赖执行的包代码如
swg321321
·
2022-10-30 19:17
#
Spark
大数据
hive
spark
big
data
Hive3详细教程(八)Hive3自定义UDF函数(elipse版)
因为Hive本身是Java开发的,所以我们可以使用Java定义函数供
HiveSQL
使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。
Java朱老师
·
2022-10-26 07:59
Hive3
hive
hadoop
Hive3详细教程(九)Hive3自定义UDF函数(IDEA Maven版)
因为Hive本身是Java开发的,所以我们可以使用Java定义函数供
HiveSQL
使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。
Java朱老师
·
2022-10-26 07:59
Hive3
hive
hadoop
hivesql
中 exists 用法
有一次面试的时候,面试官问了这么一个场景题:一家门店一个月内每位顾客访问的目的可能有多种,并给到访顾客的目的打标签1、2、3、4这四类,现在要统计这家门店一个月内没有3、4标签的顾客明细。(也就是顾客到访标签只有1或者2,但凡被打过3或4标签的客户都要被排除掉)很明显,这个场景用exists就很合适了。先建一张表,插入几条数据,简单模拟一下这个场景如上图,到访门店的一共四位顾客,不存在标签3、4的
Wflowerd
·
2022-10-25 21:32
Hive数据仓库构建
大数据
hivesql
hive
sql
hive调优常见策略
fetch抓取机制通俗解释:在执行
hivesql
的时候能不跑MapReduce程序尽量不跑MapReduce程序。直接针对表所对应的文件进行操作fetch默认是开启的。
大数据架构师Pony
·
2022-10-18 10:35
大数据之Hive
hive调优常见策略
大数据hive
hive调优
谈笑间学会大数据-Hive调优策略
谈笑间学会大数据-Hive调优策略
HiveSQL
是一种声明试语言,用户会提交声明式的查询,而Hive会将其转换成MapReducejob,大多数情况下,用户不需要了解Hive内部的实现原理的,这样就可以专注业务的事情
MrZhangBaby
·
2022-10-18 10:31
Hadoop
Hive
谈笑间学会大数据
hive
hadoop
大数据
大数据——Hive SQL优化
大数据——
HiveSQL
优化一、SELECT字段尽可能少,数据过滤尽可能提前二、能不用JOIN连接的就不用三、数据倾斜问题四、多表join时key保持一致五、去除空值和无意义的值一、SELECT字段尽可能少
长不大的大灰狼
·
2022-09-22 22:19
大数据
hive
大数据
sql
大数据系列 | SparkSQL&
HiveSQL
报错解决方法
问题原因:问题报错提示:Distinctwindowfunctionsarenotsupported:count(distinctxx)windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因:查阅资料后发现sparksql中的窗口函数不支持COUNT(DISTINCT
woshinsy
·
2022-09-21 13:09
#
HiveSQL
大数据和数据仓库
sql
数据库
hive
CDH6.3.2 Hive on spark报错is running beyond physical memory limits
Hue跑
hivesql
时报错如下java.lang.IllegalStateException:ConnectiontoremoteSparkdriverwaslost查看yarn报错日志如下Container
格格巫 MMQ!!
·
2022-09-21 13:38
hive
liunx
spark
hive
大数据
大数据面试之hive重点(二)
大数据面试之hive重点(二)
HiveSQL
转化为MR的过程?
大数据小理
·
2022-09-21 13:35
大数据面试
数仓面试
hive
hive
大数据
【踩坑实录】hive cli查询不显示表头
2.可修改hive配置文件,永久生效一、问题描述:在Hue中执行
hivesql
查询结果,没有显示出表头。二、解决方法:1.只调参,只在当前会话内生效。
chimchim66
·
2022-09-15 12:13
踩坑记录
hive
hadoop
数据仓库
python explode_pandas dataframe 中的explode函数用法详解
在使用pandas进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于
hivesql
中的explode函数。这个函数如下:Code#!
weixin_39846553
·
2022-09-11 07:52
python
explode
数据分析常见SQL面试题汇总
文章目录在互联网公司实习中使用
HiveSQL
的一些体会和注意点SQL——计算次日留存率ntile的使用在不能使用ORDRBY的情况下解决排序问题最差是第几名(二)求中位数的排名考试分数(五)中位数SQL70
数据闲逛人
·
2022-09-10 18:51
【面试】
#
【SQL语句】
SQL中去重的三种方式
SQL去重是数据分析工作中比较常见的一个场景;在MySQL中通常是使用distinct或groupby子句,但在支持窗口函数的sql(如
HiveSQL
、Oracle等等)中还可以使用row_number
斯沃福德
·
2022-09-09 09:23
数据库
sql
数据库
mysql
Hive时间日期函数一文详解+代码实例
目录前言一、
HiveSQL
运行过程二、Hive时间函数1.获取当前时间1.current_date()2.current_timestamp()3.unix_timestamp()2.获取指定时间维度1
fanstuck
·
2022-09-08 10:49
一文速学-SQL各类数据库操作
大数据
数据分析
数据仓库
数据挖掘
hive
大白话描述SQL面试的知识点
一、SQL(结构化查询语言)SQL的分类:基本需要了解的:MySQL(99SQL)、HQL(
HiveSQL
)、SparkSQL、ImpalaSQL、OracleSQL的应用:MySQL数据库用于存放元数据较多
来自偶然的尘土
·
2022-09-06 09:51
SQL
Interview
MySQL面试
大数据工程师面试
HiveSql
调优系列之Hive严格模式,如何合理使用Hive严格模式
所谓Hive的严格模式,就是为了避免用户提交一些恶意SQL,消耗大量资源进而使得运行环境崩溃做出的一些安全性的限制。
鲁边
·
2022-09-02 18:00
Spark SQL and DataFrames
SparkSQL将SparkSQL转换为RDD,然后提交到集群执行,执行效率非常快,比如hive是将
hiveSQL
转换为MapRe
brz_em
·
2022-08-22 23:13
Spark
Spark
SQL
and
DataFrames
SparkSql
MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用2)Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的
HiveSql
zhangronglin1
·
2022-08-18 20:23
SparkSQL
Shark
Dataset
谓词下推
UDF和UDAF
大数据开发选择之技术路线 or 业务路线?
1)离线数仓的话写
HiveSQL
或者SparkSQL比较多,但也不是单纯的写写SQ
sheep8521
·
2022-07-31 10:10
技术路线
hive sql和mysql的区别_【mysql和
hivesql
区别】
在线QQ客服:1922638专业的SQLServer、MySQL数据库同步软件默认情况下,
HiveSQL
的底层基于MR程序运行。
琉璃纱
·
2022-07-30 11:31
hive
sql和mysql的区别
硬刚Hive | 4万字基础调优面试小总结
本文基本涵盖以下内容:一、基于Hadoop的数据仓库Hive基础知识二、
HiveSQL
语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、
HiveSQL
优化十二板斧六、Hive面试题(一)七、
浪尖聊大数据-浪尖
·
2022-07-20 10:11
数据仓库
数据库
scipy
lighttpd
sharepoint
hivesql
修改字段类型_Hive SQL汇总
创建数据库createdatabaseifnotexistssopdmcomment'thisistestdatabase'withdbproperties('creator'='gxw','date'='2014-11-12')--数据库键值对属性信息location'/my/preferred/directory';显示所有表showtables;显示表的描述信息desc[extended,f
weixin_39782832
·
2022-07-15 09:24
hivesql修改字段类型
大数据SQL优化之数据倾斜解决案例全集
外部表现的话,在
HiveSQL
任务里看到map或者reduce的进度一直是99%持续数小时没有变化;在SparkSQL里则是某个stage里,正在运行的任务数量长时间是1或者2不变。
OPPO互联网技术官方账号
·
2022-07-12 12:25
大数据
HiveSQL
优化方法
Hive调优集锦Hive/
HiveSQL
常用优化方法全面总结关于Hive优化的四种方法总结
HiveSQL
优化Hive数据倾斜问题Hive常见的数据倾斜及调优技巧
HiveSQL
排序Hive作为大数据领域常用的数据仓库组件
天线嘟嘟茄
·
2022-06-15 14:14
第3节 hudi hive 数据同步,实现湖仓一体 cdh6.3.2存在版本兼容问题,spark可以查询HoodieParquetRealtimeInputFormat格式表,hive查询报错
hive(1)将Hudi目录编译好的hudi-hadoop-mr-bundle-0.9.0.jar,复制到hive的lib下让hive支持hudi,需要重启hiveserver2服务,或者不加入也可,在执行
hivesql
第一次看海
·
2022-05-31 07:11
hudi
hive
spark
hudi
离线数据处理工具、准实时数据处理工具与实时数据处理工具
1、离线数据:hiveHive查询操作过程严格遵守HadoopMapReduce的作业执行模型,Hive将用户的
HiveSQL
语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop
烧卖攻城
·
2022-04-24 15:53
Hive系列(一)—— Hive初识及基础介绍
它可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
)查询功能;其底层数据是存储在HDFS上,Hive的本质是将SQL语句转换
BigData_Hubert
·
2022-04-24 14:52
大数据
hive
hive原理
hive操作
HiveSQL
高级进阶10大技巧
直接上干货,
HiveSQL
高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升,达到一个较高的层次!
·
2022-03-24 14:19
hive
万字长文详解
HiveSQL
执行计划
本文目录:一、前言二、SQL的执行计划explain的用法explain的使用场景案例一:join语句会过滤null的值吗?案例二:groupby分组语句会进行排序吗?案例三:哪条sql执行效率高呢?案例四:定位产生数据倾斜的代码段explaindependency的用法案例一:识别看似等价的代码案例二:识别SQL读取数据范围的差别explainauthorization的用法一、前言HiveSQ
五分钟学大数据
·
2022-03-22 10:00
利用hue调度shell脚本和hive脚本-Demo演示
在HDFS上创建一个shell脚本程序文件在HDFS上创建一个
hivesql
脚本程序文件如以下文件打开工作流调度页面。调用hive脚本调用shell脚本
小哇666
·
2022-02-28 15:56
#
Hue
hive
shell
oozie集成
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他