E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
hive的sql优化思路-明白底层运行逻辑
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:1.
HiveSQL
底层执行过程详细剖析
ycllycll
·
2025-07-21 18:50
hive
sql
hadoop
Hive简介
的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(
HiveSQL
·
2025-07-12 05:29
打造个性化
HiveSQL
格式化插件:Hql_formatter实战
对于
HiveSQL
,一种用于大数据处理的查询语言,格式化工具可以显著提高开发效率。
大思兄的视界
·
2025-06-26 16:03
Hive sql全方位优化详解
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。以我
sunxunyong
·
2025-06-15 09:58
hive
sql
hadoop
Hive SQL执行流程深度解析:从CLI入口到执行计划生成
摘要本文系统剖析
HiveSQL
的执行内核,从HiveCLI的启动流程切入,详解CliDriver、ReExecDriver和Driver三大核心类的协作机制。
Edingbrugh.南空
·
2025-06-15 09:27
hive
大数据
hive
sql
hadoop
Hive SQL:一小时快速入门指南
在大数据处理领域,
HiveSQL
作为连接传统数据库与分布式计算的桥梁,已成为数据工程师的核心技能之一。
·
2025-06-15 09:23
Hive解析Json数据、Json数组数据(建议收藏)
我们进行ETL(Extract-Transfer-Load)过程中,某些字段是json格式,里面拼接了很多字段key和指标值value,今天讲一下用
HiveSQL
如何解析出来json的键值对数据一、get_json_object
清平乐的技术博客
·
2025-06-15 08:52
数仓设计与开发
Hive
hive
json
hadoop
spark 执行 hive sql数据丢失
spark-sql丢失数据1.通过spark执行
hivesql
的时候,发现hive四条数据,spark执行结果只有两条数据目标对应的两条数据丢失selectdate,user_id,payfromdim.isr_pay_failedwhereuser_id
qq_40841339
·
2025-06-07 13:38
spark
hive
hadoop
spark
hive
sql
Hive SQL优化实践:提升大数据处理效率的关键策略
然而,随着数据量的指数级增长和业务复杂度的提升,低效的
HiveSQL
可能导致资源浪费和查询性能瓶颈。
weixin_47233946
·
2025-06-06 04:20
hive
sql
hadoop
HiveSQL
语法全解析与实战指南
HiveSQL
完整语法体系与特性解析一、数据定义语言(DDL)库操作CREATEDATABASE[IFNOTEXISTS]dbname[COMMENT'描述'][LOCATION'hdfs_path']
不辉放弃
·
2025-06-05 16:57
hive
大数据开发
数据库
浅谈Hive SQL的优化
本文结合
HiveSQL
的运行原理谈一谈
HiveSQL
的优化问题。1.数据过滤应尽早做,同时只选择所需要
CodeZhuxh
·
2025-06-01 04:54
大数据
sparksql
hive
sql
hadoop
SQL面试提问:如何找出⽀付⾦额在前 20% 的用户?
这是一个在面试中常见的
HiveSQL
题目,考察的是你对分位数函数(如percent_rank、ntile)和窗口函数的掌握程度。下面我们来一步步解析如何使用
HiveSQL
找出支付金额在前20%的用户。
莫叫石榴姐
·
2025-05-21 13:03
数字化建设通关指南
sql
面试
数据库
数据分析
职场和发展
Hive Transactional Tables 事务表
这个定位意味着早期的
HiveSQL
语法中没有update、delete操作的,只有select查询分析操作,所以没有支持事务的说法。2.
跑调却靠谱
·
2025-05-17 04:10
Hive
hive
大数据
hadoop
十一、Hive JOIN 连接查询
HiveSQL
提供了多种JOIN语法,如同六脉神剑,各有精妙之处。掌握它们,能让你在数据整合时游刃有余。思维导图准备工作:创建示例表为了演示各种JOIN,我们先创建两张简单的表:employees(员
IvanCodes
·
2025-05-16 23:16
Hive教程
hive
大数据
【小贪】程序员必备:Shell、Git、Vim常用命令
主要技术包括:✅数据库常用:MySQL,
HiveSQL
,SparkSQL✅大数据处理常用:Pyspark,Pandas⚪图像处理常用:OpenCV,matplotlib⚪机器学习常用:SciPy,Sklearn
贪钱算法还我头发
·
2025-05-13 15:26
小小宝典
git
vim
编辑器
shell
ssh
linux
【硬刚Hive】HIVE高级(15):优化(15) Explain 查看执行计划(三)
0简介
HiveSQL
的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。
王知无(import_bigdata)
·
2025-05-04 12:23
Hive系统性学习专栏
hive
big
data
大数据从业者必知必会的Hive SQL调优技巧
作者:京东科技李然辉大数据从业者必知必会的
HiveSQL
调优技巧摘要:在大数据领域中,
HiveSQL
被广泛应用于数据仓库的数据查询和分析。
·
2025-04-30 17:48
程序员
面试拷打要懂:Hive sql优化最全总结
数据倾斜处理识别数据倾斜解决数据倾斜文件格式选择ORC文件格式Parquet文件格式ORC与Parquet的比较压缩技术应用小文件处理内存设置调整并发和资源分配谓词下推列裁剪子查询优化优化的重要性在大数据时代,
HiveSQL
大模型大数据攻城狮
·
2025-04-29 22:14
java
大数据
实时计算
离线计算
hive面试
数仓面试
数据仓库
hivesql
建表语句_Hive SQL语法总结
Hive查询操作过程严格遵守HadoopMapReduce的作业执行模型,Hive将用户的
HiveSQL
语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop监控作业执行过程,
格物龙场
·
2025-04-25 07:19
hivesql建表语句
大数据--hive4--
HiveSQL
查询语法总结
目录一:
HiveSQL
与SQL的区别二:Hive表关联条件不支持不等值连接三:桶或者簇四:groupby数据分组五:collect_list和collect_set用法六:根据
HiveSql
语句的执行顺序而进行的优化七
斑马!
·
2025-04-21 00:35
大数据
#
Hadoop生态
HiveSQL
或SparkSQl中group by与grouping sets、with cube和with rollup用法演示
GROUPINGSETS:根据不同的维度组合进行聚合,等价于将不同维度的GROUPBY结果集进行UNIONALL数据准备:建表语句:createtabletmp.gb(astring,bstring,cint)rowformatdelimitedfieldsterminatedby'\t'storedastextfile;案例数据:111212222223212122使用案例:第一种组合:sele
木给哇啦丶
·
2025-04-19 23:50
spark
hive
sql
hive
spark
spark spark-sql提交方式及参数优化建议
Spark作为分布式的SQL查询引擎,官方测试结果比
Hivesql
快100倍。
爱折腾的小土豆
·
2025-04-17 12:25
spark
sql
大数据
大数据学长面试-------腾讯面试
(3)有一
hivesql
,怎么计算这个sql会产生多少个map数?(4)怎么查看hive有什么自带函数?怎么查看函数
大数据小理
·
2025-04-15 13:14
数仓
大数据1
数据仓库
大数据
大数据面试
数据仓库
HiveSQL
优化
2-1分桶采样当表的数据量比较庞大的时候,在编写SQL语句后,需要首先测试SQL是否可以正常的执行,需要在表中执行查询操作,由于表数据量比较庞大,在测试一条SQL的时候整个运行的时间比较久,为了提升测试效率,可以整个表抽样出一部分的数据,进行测试校验数据的可行性(质量校验)100条sum()join进行统计分析的时候,并不需要统计出具体的指标,可能统计的都是一些相对性指标,比如说一些比率(合格率)
小球-大数据
·
2025-03-27 11:59
hive
大数据
sql
数据仓库
数据库开发
hive sql 正则 提取括号中内容
我整理的一些关于【数据】的项目学习资料(附讲解~~)和大家一起分享、学习一下:https://d.51cto.com/eDOcp1使用
HiveSQL
正则提取括号中的内容在数据分析和处理的过程中,尤其是在大数据平台
Rideo-rax
·
2025-03-27 11:58
hive
sql
hadoop
数据仓库
大数据
Hive SQL 精进系列:SUBSTR 函数的多样用法
简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是
HiveSQL
进一步有进一步的欢喜
·
2025-03-17 11:03
Hive
SQL
精进系列
hive
sql
hadoop
hive sql报错
1.
hivesql
报错FAILED:ParseExceptionline22:0cannotrecognizeinputnear''''''insubquerysource2.解决select*from
进一步有进一步的欢喜
·
2025-03-16 06:04
大数据
Hive
SQL
精进系列
Hive高级SQL技巧及实际应用场景
HiveSQL
的高级使用技巧1.窗口函数描述:窗口函数允许我们在不使用GR
小技工丨
·
2025-03-14 07:40
大数据随笔
sql
hive
数据仓库
大数据
Hive SQL 优化
标题一、
HIVESQL
执##标题行顺序了解
hivesql
的执行顺序,有助于写出更高质量的代码。
大数据侠客
·
2025-03-05 06:45
大数据
相关技术
文档总结
hive
sql
性能优化
京东Hive SQL面试题实战:APP路径分析场景解析与幽默生存指南
京东
HiveSQL
面试题实战:APP路径分析场景解析与幽默生存指南“数据开发工程师的终极浪漫,就是把用户路径写成诗——用
HiveSQL
押韵。”
数据大包哥
·
2025-03-02 07:13
#
大厂SQL面试指南
hive
sql
hadoop
Hive SQL 使用及进阶详解
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构,它提供了类似于SQL的查询语言
HiveSQL
(也称为HQL),用于对存储在Hadoop分布式文件系统(HDFS)中的大规模数据进行数据查询和分析
小四的快乐生活
·
2025-02-27 03:37
hive
sql
hadoop
【Hive】学习路线:架构、运维、Hsql实战、源码分析
文章目录一.Hive基础学习1.基础知识2.安装与配置3.数据存储与表结构二.hive运维三.Hive实战1.
HiveSQL
基础2.高级查询与数据分析3.数据存储优化4.性能调优四.Hive源码分析一.
roman_日积跬步-终至千里
·
2025-02-23 22:25
#
hive
hive
学习
架构
java获取hive表所有字段,Hive Sql从表中动态获取空列计数
我正在使用datastaxspark集成和sparkSQLthrift服务器,它为我提供了一个
HiveSQL
接口来查询Cassandra中的表.我的数据库中的表是动态创建的,我想要做的是仅根据表名在表的每列中获取空值的计数
拾亿年
·
2025-02-14 16:23
java获取hive表所有字段
掌握大数据--Hive全面指南
1.Hive简介2.Hive部署方式3.Hive的架构图4.Hive初体验5.
HiveSQL
语法--DDL操作数据库1.Hive简介ApacheHive是建立在Hadoop之上的一个数据仓库工具,它提供了一种类似于
纪祥_ee1
·
2025-02-10 22:40
大数据
hive
hadoop
Hive自定义UDF函数
一、JSONObject解析JSON对象二、JSONArray解析JSON数组对象三、两个UDF的配合使用过程一、UDF概述UDF全称:User-DefinedFunctions,即用户自定义函数,在
HiveSQL
浊酒南街
·
2025-02-08 07:30
#
大数据系列三
hive
UDF
一次线程数超限导致的hive写入hbase作业失败分析
1.集群配置操作系统:SuSe操作系统集群节点:100台相同配置的服务器单台:核心112Core,内存396G2.问题现象现象1:跑单个入库任务报错,批量提交任务后出现OOM异常执行12个
hivesql
spring208208
·
2025-02-06 04:46
大数据组件线上问题分析
大数据
hive
hbase
【大数据入门核心技术-Hive】(十一)
HiveSQL
数据分区
目录一、分区的概念二、创建分区1)静态分区1、单分区测试2、多分区测试2)动态分区3、动态分区和静态分区混合使用三、分区的其它操作1、恢复分区2、归档分区3、交换分区四、分区数据查询1、单分区数据查询2、多分区数据查询方法1:通过union方法2:通过or一、分区的概念数据分区的概念以及存在很久了,通常使用分区来水平分散压力,将数据从物理上移到和使用最频繁的用户更近的地方,以及实现其目的。hive
forest_long
·
2025-02-01 03:25
大数据技术入门到21天通关
大数据
hive
hadoop
数据仓库
hdfs
hvie SQL优化之where子句过滤模式
在
HiveSQL
里面经常用到的过滤方法就是使用where子句,例如:explainselect*fromstudent_tb_seqwheres_age=19ands_namelike'%红%'ands_scorein
三生暮雨渡瀟瀟
·
2025-01-22 20:49
hive调优
hive
HiveSQL
一本通 - 案例实操,2024年最新大数据开发编程基础班
count(stu_id)stu_countfromscore_infogroupbycourse_idhavingstu_count>=15;(3)查询结果。course_idstu_count0119021903196.3.4查询结果排序和分组指定条件1.查询学生的总成绩并按照总成绩降序排序(1)思路分析。本题主要考查分组聚合和orderby关键字的使用。(2)查询语句。hive>select
疯狂的石头。
·
2024-09-07 13:47
程序员
大数据
Hive SQL基础及优化
SQLSQLSQL基础语法基本含义(与excel对应)数据来源
HiveSQL
查询语法单表查询语法和使用1,select2,groupby*3,聚合函数4.行转列5,join6,Hive分析/窗口函数7,
蓝棠
·
2024-09-07 11:08
SQL
hive
sql
big
data
python读取hive数据库_利用pyhive将hive查询数据导入到mysql
pyhive作用远程连接hive数据库,运行
hivesql
,而不需要登录到安装有hive的服务器上去可以更方便处理更多连续命令,可以封装一些经常需要复用的命令脚本化,不需要编译,随时改,随时执行看结果方便对
weixin_39939668
·
2024-09-05 00:35
python读取hive数据库
hivesql
练习3
--源表name,subjectid,age,score张三,0001,22,45张三,0002,22,56李四,0002,18,88赵五,0002,24,66--目标表(科目0001没有成绩的学生name和age)name,age李四,18赵五,24createtablescore_t(namestring,subjectidstring,agestring,scorestring)ROWFOR
小涛手记
·
2024-08-31 17:54
hive
hive
sql
大数据
hivesql
练习
源表:province,province_id,city,city_id,area,area_id甘肃省,11,张掖市,21,甘州区,31甘肃省,11,张掖市,21,山丹县,32甘肃省,11,张掖市,21,高台县,33甘肃省,11,兰州市,22,七里河,34甘肃省,11,兰州市,22,新区,35北京,12,北京,12,海淀区,36北京,12,北京,12,昌平区,37目标表:+------+----
小涛手记
·
2024-08-31 17:54
hive
hive
sql
linux下hive指令快使用无介绍版(一)
问题背景平常项目基本都是直接在代码里面执行
hiveSql
,在linux下操作hive的指令总是忘记,基于此基础,写一个快速使用版的注意事项:默认已安装hive,并配置环境变量语句结尾的分号不能少,这是语法
时间是一种毒药
·
2024-08-24 17:00
HiveSQL
常见函数及使用方法(含代码示例)
HiveSQL
(
HiveSQL
)是ApacheHive所使用的SQL方言,专门用于在Hadoop上进行大规模数据处理。以下是一些常见的
HiveSQL
函数及其使用方法:1.聚合函数COUNT统计记录数。
会飞的岛格酱
·
2024-08-21 21:31
SQL代码练习
hive
sql
数据分析
hive sql实现查找商品表名称中包含敏感词的商品
背景用户上传的商品表一般会包含商品名称,由于这些商品名称是用户自己起的,里面可能包含了敏感词,需要通过sql找出来哪些商品的商品名称包含了敏感词汇
hivesql
实现查找商品表名称中包含敏感词的商品实现思路
lixia0417mul2
·
2024-03-24 03:50
大数据
hive
sql
hadoop
HiveSQL
某天每个直播间最大在线人数
一张表dwd_user_log有如下字段:1)直播间:live_id2)用户:userid3)时间戳:date_stamp4)登陆类型:entry_type(登入in和登出out)求某天每个直播间最大在线人数?selectlive_id,max(total_users)max_total_usersfrom(selectlive_id,userid,date_stamp,sum(ind)over(
sofo2017
·
2024-03-09 21:51
数据仓库技术体系
hive
Hive SQL 开发指南(三)优化及常见异常
在大数据领域,
HiveSQL
是一种常用的查询语言,用于在Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的
HiveSQL
开发规范至关重要。
大数据_苡~
·
2024-03-09 14:13
003-数据开发
hive
Hive优化
数据倾斜
Hive常见异常
hive
join
Hive SQL——group by函数的注意点
HiveSQL
的groupby对比MySQL,有一个让我特别不能接受的原则:select后面所有的列中,没有使用聚合函数的列,必须出现在groupby子句中。
xia ge tou lia
·
2024-02-20 10:16
Hive
数据库
HiveSQL
——统计当前时间段的有客人在住的房间数量
注:参考文章:
HiveSQL
一天一个小技巧:如何统计当前时间点状态情况【辅助变量+累计变换思路】_sql查询统计某状态出现的次数及累计时间-CSDN博客文章浏览阅读2k次,点赞6次,收藏8次。
爱吃辣条byte
·
2024-02-20 09:42
hive
数据仓库
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他