E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
hive sql 优化-转载csdn
HiveSQL
执行流程:InputFormat、OutputFormat、SerDe理清这三者之间的关系:SerDeisashortnamefor"SerializerandDeserializer."
仲間_9ee4
·
2024-01-11 23:36
hive sql 和 spark sql的区别
HiveSQL
和SparkSQL都是用于在大数据环境中处理结构化数据的工具,但它们有一些关键的区别:底层计算引擎:
HiveSQL
:Hive是建立在Hadoop生态系统之上的,使用MapReduce作为底层计算引擎
深度学习研究员
·
2024-01-11 07:08
hive
sql
spark
数据库
hive在mysql中总是不创建元数据库的解决办法
hive在mysql中总是不创建元数据库的解决办法这两天打算好好捣鼓捣鼓
hivesql
。遂搞了台centos搭环境,搭环境嘛,当然是怎么简单怎么来,怎么快怎么来。
黄道婆
·
2024-01-09 13:21
bigdata
#
hive
hive
2024.1.7 Spark SQL , DataFrame
DataFrameSQL方式:DSL方式:一.SparkSQL简介SparkSQL只能处理结构化数据,属于Spark框架一个部分Schema:元数据信息特点:融合性,统一数据访问,hive兼容,标准化连接将
hivesql
白白的wj
·
2024-01-08 07:17
spark
sql
大数据
python
etl
数据仓库
hadoop
Hive实战:网址去重
完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用
HiveSQL
howard2005
·
2024-01-07 17:03
数仓技术Hive入门
hive
去重
hive之with as 和 create temporary区别
在写
hivesql
语句时,通常因为实现一个比较复杂的逻辑时,往往使用多层嵌套关联,首先导致代码的可读性较差,其次是代码性能比较低。因为这个原因,很多人都会想方设法去优化代码,提高代码的可读性和性能。
玩数据的小彬
·
2024-01-07 01:41
hive
hadoop
【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD
涉及的函数:unix_timestampfrom_unixtime【
HiveSQL
】常用日期函数汇总:错误思路:我寻思这不挺简单的吗?直接给你安排上to_date不就完事儿了。
王久也你又在造BUG
·
2024-01-06 15:55
【HQL的实战】
sql
hive
大数据
hiveSQL
基本语句三-----连接查询--inner join、left join、full join、union all、union
一、(inner)join连接2个表,取出公共部分必须重命名on后连接条件键值唯一连接前注意去重,提高效率inner可省略select*fromuser_list_1asainnerjoinuser_list_2asbona.user_id=b.user_id;三表连接selecta.user_namefrom(selectdistinctuser_namefromdata1)asainnerjo
cc抱富
·
2024-01-04 04:42
hive
语法
从零开始了解大数据(六):数据仓库Hive篇
架构与组件三、ApacheHive安装部署1.ApacheHive部署实战(1)Hadoop与Hive整合(2)Metastore服务启动方式四、ApacheHive客户端使用1.Hive自带客户端五、
HiveSQL
橘子-青衫
·
2024-01-04 02:51
大数据
从零开始了解大数据
大数据
数据仓库
hive
hadoop
分布式
Trino兼容Hive SQL方案探索
开发人员每次运行
HiveSQL
验证数据逻辑,需要等待较长时间。
DawsonSally
·
2024-01-03 11:15
大数据
Trino
java
数据库
大数据
数据仓库
Hive sql 行列转换(行转列,列转行)
在
Hivesql
应用中会遇到“行转列”和“列转行”的场景,下面介绍其基本使用语法。
m0_67392409
·
2023-12-31 21:27
面试
学习路线
阿里巴巴
hive
sql
数据库
开发语言
servlet
Hive实战:统计总分与平均分
一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表,加载HDFS数据文件4、利用
HiveSQL
howard2005
·
2023-12-28 10:16
数仓技术Hive入门
hive
总分
平均分
Spark从入门到精通23:Spark SQL简介
我们知道Hive是Hadoop生态中的一个数据分析引擎,它可以将
HiveSQL
转换成MapReduce任务提交到Hadoop集群中执行,大大简化了编写MapReduce程序的
金字塔下的小蜗牛
·
2023-12-28 09:20
Hive实战:词频统计
完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用
HiveSQL
howard2005
·
2023-12-27 23:24
数仓技术Hive入门
hive
hadoop
Hive 在工作中的调优总结
总结了一下在以往工作中,对于
HiveSQL
调优的一些实际应用,是日常积累的一些优化技巧,如有出入,欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作,partitioned
fx67ll
·
2023-12-27 18:50
大数据开发文档
hive
大数据
hadoop
[hive] sql中distinct的用法和注意事项
在
HiveSQL
中,DISTINCT用于去重查询结果中的行。它返回唯一的行,消除结果集中的重复项。
言之。
·
2023-12-26 13:09
hive
sql
hadoop
大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队
摘要:在大数据领域中,
HiveSQL
被广泛应用于数据仓库的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,
HiveSQL
查询的性能往往不尽人意。
京东云技术团队
·
2023-12-26 06:33
大数据
hive
sql
技本功|Hive优化之监控(三)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣YUNCHE
·
2023-12-24 03:15
技术文档
数据库
运维
hive
大数据
mysql
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣YUNCHE
·
2023-12-24 03:44
技术文档
spark
hive
Spark SQL 教程
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了
数据萌新
·
2023-12-22 10:06
Hive SQL判断一个字符串中是否包含字串的N种方式及其效率
HiveSQL
判断一个字符串中是否包含字串的N种方式及其效率背景方案1:regexp_extract方案2:instr方案3:locate方案4:like方案5:rlike方案6:strpos计算效率对比背景这是个常见需求
qiaoqiao2332
·
2023-12-21 14:59
hive
sql
hadoop
hiveSQL
时间日期处理
1.将字符串日期转为整型日期hive数据库中存储的时间是string类型的,但是我们在取数的时候,习惯把字符串型的日期转换为整型的日期,如将’2020-09-03’转换成’20200903’,转换方式如下:(1)regexp_replace(substr(create_time,1,10),'-','')(2)regexp_replace(to_date(create_time),'-','')2
是唱唱呀
·
2023-12-20 09:48
SQL
hive
sql
Hive-SQL语法大全
HiveSQL
语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name
黑马程序员官方
·
2023-12-20 09:16
hive
sql
数据库
[hive] 在hive sql中定义变量
在
HiveSQL
中,可以使用SET命令来定义变量。变量可以用于存储和引用常量或表达式的值,以便在查询中重复使用。
言之。
·
2023-12-19 06:16
hive
sql
hadoop
2022秋招蚂蚁金服面试
一是
hivesql
用来取数;二是python、excel,用来数据可视化。4、sql问题4.1数据库底层知识:主键是什么?主键是
七天笔记本
·
2023-12-18 12:32
sql
面试
职场和发展
数据分析
大数据架构(一)背景和概念
一、背景1.岗位现状大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写
HiveSQL
配置个离线任务、整个帆软报表都20K+起步。
野生的狒狒
·
2023-12-18 02:50
大数据
数据仓库
hive
HiveSql
语法优化三 :join优化
前面提到过:Hive拥有多种join算法,包括CommonJoin,MapJoin,BucketMapJoin,SortMergeBucktMapJoin等;每种join算法都有对应的优化方案。MapJoin在优化阶段,如果能将CommonJoin优化为MapJoin算法,那就会优化成MapJoin,但是在编译阶段如果所需的表大小是未知的(例如对子查询进行join操作),那么Hive会在编译阶段生
zmx_messi
·
2023-12-17 08:13
大数据
HiveSql
语法优化二 :join算法
Hive拥有多种join算法,包括CommonJoin,MapJoin,BucketMapJoin,SortMergeBucktMapJoin等,下面对每种join算法做简要说明:CommonJoinCommonJoin是Hive中最稳定的join算法,其通过一个MapReduceJob完成一个join操作。Map端负责读取join操作所需表的数据,并按照关联字段进行分区,通过Shuffle,将其
zmx_messi
·
2023-12-17 08:43
hive
hadoop
数据仓库
HiveSql
语法优化四 :Bucket Map Join和Sort Merge Bucket Map Join优化
BucketMapJoin之前的mapjoin适用场景是大表join小表的情况,但是两张表都相对较大,若采用普通的MapJoin算法,则Map端需要较多的内存来缓存数据,当然可以选择为Map段分配更多的内存,来保证任务运行成功。但是,Map端的内存不可能无上限的分配,所以当参与Join的表数据量均过大时,就可以考虑采用BucketMapJoin算法。比如下面两张表进行join操作:表名大小orde
zmx_messi
·
2023-12-17 08:09
数据库
HiveSql
语法优化一 :分组聚合优化
Hive中未经优化的分组聚合,是通过一个MapReduceJob实现的。Map端负责读取数据,并按照分组字段分区,通过Shuffle,将数据发往Reduce端,各组数据在Reduce端完成最终的聚合运算。Hive对分组聚合的优化主要围绕着减少Shuffle数据量进行,具体做法是map-side聚合。所谓map-side聚合,就是在map端维护一个hashtable,利用其完成部分的聚合,然后将部分
zmx_messi
·
2023-12-17 08:38
大数据
大数据的技术栈-逐步完善
目录1.hadoopa.HDFS分布式文件系统b.Yarn集群资源管理器c.MapReducesql引擎d.Impalasql引擎e.工具概观2.数据仓库知识a.Hive数据库1)
HiveSql
2)数据库结构
刘文钊1
·
2023-12-04 20:12
大数据
Hive SQL使用过程中的奇怪现象
HiveSQL
是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同
大数据技术与数仓
·
2023-12-03 08:07
Spark---SparkSQL介绍
除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的
HiveSql
可以
30岁老阿姨
·
2023-11-30 13:52
Spark
spark
大数据
分布式
大数据学习(26)-数据倾斜总结
&&大数据学习&&系列专栏:哲学语录:承认自己的无知,乃是开启智慧的大门如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦Hive数据倾斜问题是指在
HiveSQL
查询过程中,由于数据在表或列上的分布不均衡
viperrrrrrr
·
2023-11-29 17:30
大数据
学习
spark
hive
大数据学习之
HiveSQL
一.DDL(数据定义语言)1.DDL概述数据定义语言(DataDefinitionLanguage,DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。2.DDL建表2.1完整建表语法树蓝色字体
煜筱子
·
2023-11-29 17:29
大数据
学习
hive
sql
二百零八、Hive——
HiveSQL
异常:Select查询数据正常,但SQL语句加上group by查询数据为空
一、目的在
HiveSQL
的DWD层中,需要对原始数据进行去重在内的清洗,结果一开始其他数据类型的清洗工作都正常,直到碰到转向比数据。
天地风雷水火山泽
·
2023-11-29 07:50
Hive
hive
sql
hadoop
hivesql
将json格式字符串转为数组
hivesql
将json格式字符串转为数组完整过程SQL在文末json格式字符串本案例json字符串参考格式,请勿使用本数据{"data":[{"province":11,"id_card":"110182198903224674
李昊哲小课
·
2023-11-27 07:03
大数据
数据分析
Hive
json
大数据
数据仓库
hive
sql
数据分析
数据可视化
hive的条件查询语句_Hive SQL 条件函数 IF 详解
HiveSQL
条件函数IF是用于处理单个列的判断查询结果,形式为if(条件表达式,结果1,结果2),相当于java中的三目运算符,只是if后面的表达式类型可以不一样。
聚合收藏
·
2023-11-25 02:50
hive的条件查询语句
HiveSQL
窗口函数
HiveSQL
窗口函数窗口函数的主要作用是对数据进行分组排序、求和、求平均值、计数等。
王林-wlin
·
2023-11-25 02:19
Oracle
笔记
sql
数据库
hive
HiveSQL
解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
数仓大山哥
·
2023-11-24 02:00
hive
hive
mapreduce
sql执行原理
【大数据Hive】hive 优化策略之job任务优化
2.2.2带条件的查询计划分析三、MapReduce属性优化3.1本地模式3.1.1本地模式参数设置3.1.2本地模式操作演示3.2JVM重用3.2.1什么是JVM重用3.3并行执行四、join优化4.1
hivesql
逆风飞翔的小叔
·
2023-11-23 00:13
hive
job优化策略
hive
任务优化策略
hive
job优化
python3 windows使用pyhive连接Hive 报错解决
背景:工作需要,使用python操作
hivesql
查询数据使用。目标:使用pyhive连接上hive,并正常读取数据。
Z!ger
·
2023-11-22 12:24
python
python
大数据
hive
数据分析
HiveSQL
语句中SELECT,FROM,WHERE,GROUP BY,LIMIT,ORDER BY的执行顺序
1.from2.where3.groupby4.select5.orderby6.limit
迷惘的小行星
·
2023-11-21 06:35
HIVE相关
hive
sql
[hive] posexplode函数
在
HiveSQL
中,posexplode是一个用于将数组(array)拆分为多行的函数。它返回数组中的每个元素以及其在数组中的位置(索引)作为两列输出。
言之。
·
2023-11-21 03:23
hive
hadoop
数据仓库
hive使用中遇到的一些小问题及总结
博客都是用的多,登录的少了,端午放假闲来无事就登一登,顺便总结下自己在写
hivesql
时遇到的些小问题。
辅猪之王
·
2023-11-20 23:49
笔记
hive
大数据
hive sql 行列转换 开窗函数 炸裂函数
hivesql
行列转换开窗函数炸裂函数准备原始数据集学生表student.csv讲师表teacher.csv课程表course.csv分数表score.csv员工表emp.csv雇员表employee.csv
李昊哲小课
·
2023-11-20 21:46
数据分析
大数据
Hive
hive
sql
hadoop
数据库
大数据
数据仓库
数据分析
2023.11.16
hivesql
高阶函数之json
目录1.数据准备2.操作--方式1:逐个(字段)处理,get_json_objectUDF函数最大弊端是一次只能解析提取一个字段--方式2:逐条处理.json_tuple这是一个UDTF函数可以一次解析提取多个字段--方式3:在建表时候,直接处理json,rowformatSerDe'能处理Json的SerDe类'1.数据准备--演示json解析--需求:把json解析后的数据保存成一个新表--创
白白的wj
·
2023-11-20 19:27
json
hive
sql
database
hadoop
2023.11.17 -
hivesql
调优,数据压缩,数据存储
目录1.hive命令和参数配置2.hive数据压缩3.hive数据存储0.原文件大小18.1MB1.textfile行存储格式,压缩后size:18MB2.行存储格式:squencefile,压缩后大小8.89MB3.列存储格式orc-ZILIB,压缩后大小2.78MB4.列存储格式orc-snappy,压缩后大小3.75MB5.列存储格式之parquets,压缩后大小13.09MB4.在linu
白白的wj
·
2023-11-20 16:33
hive
hadoop
数据仓库
sql
大数据
数据库
database
SQL技巧初级系列③——数据拼接(集合运算union和列连接join)
having,orderby)SQL技巧中级系列①——字符串函数的使用SQL技巧中级系列②——日期函数的使用SQL技巧高级系列①——窗口分析函数的使用SQL技巧高级系列②——聚合函数和CASEWHEN的使用
HiveSql
数据小斑马
·
2023-11-20 14:22
SQL
sql
union
join
列连接
union
all
07-Hive优化---高级部分3
一、Hive优化大数据的学习:1、学习工具及其原理(50%~70%)2、学习重要的(java、scala、python、sql[mysql\
hivesql
\sparksql\flinksql])(30%
YuPangZa
·
2023-11-20 12:24
大数据
hive
hadoop
数据仓库
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他