HiveSQL 第3页

hive sql 优化-转载csdn

HiveSQL执行流程：InputFormat、OutputFormat、SerDe理清这三者之间的关系：SerDeisashortnamefor"SerializerandDeserializer."

仲間_9ee4·2024-01-11 23:36

hive sql 和 spark sql的区别

HiveSQL和SparkSQL都是用于在大数据环境中处理结构化数据的工具，但它们有一些关键的区别：底层计算引擎：HiveSQL：Hive是建立在Hadoop生态系统之上的，使用MapReduce作为底层计算引擎

深度学习研究员·2024-01-11 07:08

hive在mysql中总是不创建元数据库的解决办法

hive在mysql中总是不创建元数据库的解决办法这两天打算好好捣鼓捣鼓hivesql。遂搞了台centos搭环境，搭环境嘛，当然是怎么简单怎么来，怎么快怎么来。

黄道婆·2024-01-09 13:21

2024.1.7 Spark SQL , DataFrame

DataFrameSQL方式:DSL方式:一.SparkSQL简介SparkSQL只能处理结构化数据,属于Spark框架一个部分Schema:元数据信息特点:融合性,统一数据访问,hive兼容,标准化连接将hivesql

白白的wj·2024-01-08 07:17

Hive实战：网址去重

完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用HiveSQL

howard2005·2024-01-07 17:03

hive之with as 和 create temporary区别

在写hivesql语句时，通常因为实现一个比较复杂的逻辑时，往往使用多层嵌套关联，首先导致代码的可读性较差，其次是代码性能比较低。因为这个原因，很多人都会想方设法去优化代码，提高代码的可读性和性能。

玩数据的小彬·2024-01-07 01:41

【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD

涉及的函数：unix_timestampfrom_unixtime【HiveSQL】常用日期函数汇总：错误思路：我寻思这不挺简单的吗？直接给你安排上to_date不就完事儿了。

王久也你又在造BUG·2024-01-06 15:55

hiveSQL基本语句三-----连接查询--inner join、left join、full join、union all、union

一、(inner)join连接2个表，取出公共部分必须重命名on后连接条件键值唯一连接前注意去重，提高效率inner可省略select*fromuser_list_1asainnerjoinuser_list_2asbona.user_id=b.user_id;三表连接selecta.user_namefrom(selectdistinctuser_namefromdata1)asainnerjo

cc抱富·2024-01-04 04:42

从零开始了解大数据(六)：数据仓库Hive篇

架构与组件三、ApacheHive安装部署1.ApacheHive部署实战(1)Hadoop与Hive整合(2)Metastore服务启动方式四、ApacheHive客户端使用1.Hive自带客户端五、HiveSQL

橘子-青衫·2024-01-04 02:51

Trino兼容Hive SQL方案探索

开发人员每次运行HiveSQL验证数据逻辑，需要等待较长时间。

DawsonSally·2024-01-03 11:15

Hive sql 行列转换(行转列，列转行)

在Hivesql应用中会遇到“行转列”和“列转行”的场景，下面介绍其基本使用语法。

m0_67392409·2023-12-31 21:27

Hive实战：统计总分与平均分

一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表，加载HDFS数据文件4、利用HiveSQL

howard2005·2023-12-28 10:16

Spark从入门到精通23：Spark SQL简介

我们知道Hive是Hadoop生态中的一个数据分析引擎，它可以将HiveSQL转换成MapReduce任务提交到Hadoop集群中执行，大大简化了编写MapReduce程序的

金字塔下的小蜗牛·2023-12-28 09:20

Hive实战：词频统计

完成任务（一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用HiveSQL

howard2005·2023-12-27 23:24

Hive 在工作中的调优总结

总结了一下在以往工作中，对于HiveSQL调优的一些实际应用，是日常积累的一些优化技巧，如有出入，欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作，partitioned

fx67ll·2023-12-27 18:50

[hive] sql中distinct的用法和注意事项

在HiveSQL中，DISTINCT用于去重查询结果中的行。它返回唯一的行，消除结果集中的重复项。

言之。·2023-12-26 13:09

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

摘要：在大数据领域中，HiveSQL被广泛应用于数据仓库的数据查询和分析。然而，由于数据量庞大和复杂的查询需求，HiveSQL查询的性能往往不尽人意。

京东云技术团队·2023-12-26 06:33

技本功|Hive优化之监控（三）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣YUNCHE·2023-12-24 03:15

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣YUNCHE·2023-12-24 03:44

Spark SQL 教程

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了

数据萌新·2023-12-22 10:06

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

HiveSQL判断一个字符串中是否包含字串的N种方式及其效率背景方案1:regexp_extract方案2:instr方案3:locate方案4:like方案5:rlike方案6:strpos计算效率对比背景这是个常见需求

qiaoqiao2332·2023-12-21 14:59

hiveSQL时间日期处理

1.将字符串日期转为整型日期hive数据库中存储的时间是string类型的，但是我们在取数的时候，习惯把字符串型的日期转换为整型的日期，如将’2020-09-03’转换成’20200903’，转换方式如下：（1）regexp_replace(substr(create_time,1,10),'-','')（2）regexp_replace(to_date(create_time),'-','')2

是唱唱呀·2023-12-20 09:48

Hive-SQL语法大全

HiveSQL语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name

黑马程序员官方·2023-12-20 09:16

[hive] 在hive sql中定义变量

在HiveSQL中，可以使用SET命令来定义变量。变量可以用于存储和引用常量或表达式的值，以便在查询中重复使用。

言之。·2023-12-19 06:16

2022秋招蚂蚁金服面试

一是hivesql用来取数；二是python、excel，用来数据可视化。4、sql问题4.1数据库底层知识：主键是什么？主键是

七天笔记本·2023-12-18 12:32

大数据架构（一）背景和概念

一、背景1.岗位现状大数据在一线互联网已经爆发了好多年，2015年-2020年（国内互联网爆发期）那时候的大数据开发，刚毕业能写HiveSQL配置个离线任务、整个帆软报表都20K+起步。

野生的狒狒·2023-12-18 02:50

HiveSql语法优化三：join优化

前面提到过：Hive拥有多种join算法，包括CommonJoin，MapJoin，BucketMapJoin，SortMergeBucktMapJoin等；每种join算法都有对应的优化方案。MapJoin在优化阶段，如果能将CommonJoin优化为MapJoin算法，那就会优化成MapJoin，但是在编译阶段如果所需的表大小是未知的（例如对子查询进行join操作），那么Hive会在编译阶段生

zmx_messi·2023-12-17 08:13

HiveSql语法优化二：join算法

Hive拥有多种join算法，包括CommonJoin，MapJoin，BucketMapJoin，SortMergeBucktMapJoin等，下面对每种join算法做简要说明：CommonJoinCommonJoin是Hive中最稳定的join算法，其通过一个MapReduceJob完成一个join操作。Map端负责读取join操作所需表的数据，并按照关联字段进行分区，通过Shuffle，将其

zmx_messi·2023-12-17 08:43

HiveSql语法优化四：Bucket Map Join和Sort Merge Bucket Map Join优化

BucketMapJoin之前的mapjoin适用场景是大表join小表的情况，但是两张表都相对较大，若采用普通的MapJoin算法，则Map端需要较多的内存来缓存数据，当然可以选择为Map段分配更多的内存，来保证任务运行成功。但是，Map端的内存不可能无上限的分配，所以当参与Join的表数据量均过大时，就可以考虑采用BucketMapJoin算法。比如下面两张表进行join操作：表名大小orde

zmx_messi·2023-12-17 08:09

HiveSql语法优化一：分组聚合优化

Hive中未经优化的分组聚合，是通过一个MapReduceJob实现的。Map端负责读取数据，并按照分组字段分区，通过Shuffle，将数据发往Reduce端，各组数据在Reduce端完成最终的聚合运算。Hive对分组聚合的优化主要围绕着减少Shuffle数据量进行，具体做法是map-side聚合。所谓map-side聚合，就是在map端维护一个hashtable，利用其完成部分的聚合，然后将部分

zmx_messi·2023-12-17 08:38

大数据的技术栈-逐步完善

目录1.hadoopa.HDFS分布式文件系统b.Yarn集群资源管理器c.MapReducesql引擎d.Impalasql引擎e.工具概观2.数据仓库知识a.Hive数据库1)HiveSql2)数据库结构

刘文钊1·2023-12-04 20:12

Hive SQL使用过程中的奇怪现象

HiveSQL是一种类SQL语言，与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法，发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同

大数据技术与数仓·2023-12-03 08:07

Spark---SparkSQL介绍

除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以

30岁老阿姨·2023-11-30 13:52

大数据学习(26)-数据倾斜总结

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦Hive数据倾斜问题是指在HiveSQL查询过程中，由于数据在表或列上的分布不均衡

viperrrrrrr·2023-11-29 17:30

大数据学习之HiveSQL

一.DDL(数据定义语言)1.DDL概述数据定义语言(DataDefinitionLanguage,DDL)，是SQL语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言，这些数据库对象包括database（schema）、table、view、index等。核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。2.DDL建表2.1完整建表语法树蓝色字体

煜筱子·2023-11-29 17:29

二百零八、Hive——HiveSQL异常：Select查询数据正常,但SQL语句加上group by查询数据为空

一、目的在HiveSQL的DWD层中，需要对原始数据进行去重在内的清洗，结果一开始其他数据类型的清洗工作都正常，直到碰到转向比数据。

天地风雷水火山泽·2023-11-29 07:50

hivesql 将json格式字符串转为数组

hivesql将json格式字符串转为数组完整过程SQL在文末json格式字符串本案例json字符串参考格式，请勿使用本数据{"data":[{"province":11,"id_card":"110182198903224674

李昊哲小课·2023-11-27 07:03

hive的条件查询语句_Hive SQL 条件函数 IF 详解

HiveSQL条件函数IF是用于处理单个列的判断查询结果，形式为if(条件表达式,结果1,结果2)，相当于java中的三目运算符，只是if后面的表达式类型可以不一样。

聚合收藏·2023-11-25 02:50

HiveSQL 窗口函数

HiveSQL窗口函数窗口函数的主要作用是对数据进行分组排序、求和、求平均值、计数等。

王林-wlin·2023-11-25 02:19

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的HiveETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入

数仓大山哥·2023-11-24 02:00

【大数据Hive】hive 优化策略之job任务优化

2.2.2带条件的查询计划分析三、MapReduce属性优化3.1本地模式3.1.1本地模式参数设置3.1.2本地模式操作演示3.2JVM重用3.2.1什么是JVM重用3.3并行执行四、join优化4.1hivesql

逆风飞翔的小叔·2023-11-23 00:13

python3 windows使用pyhive连接Hive 报错解决

背景：工作需要，使用python操作hivesql查询数据使用。目标：使用pyhive连接上hive，并正常读取数据。

Z!ger ·2023-11-22 12:24

HiveSQL语句中SELECT,FROM,WHERE,GROUP BY,LIMIT,ORDER BY的执行顺序

1.from2.where3.groupby4.select5.orderby6.limit

迷惘的小行星·2023-11-21 06:35

[hive] posexplode函数

在HiveSQL中，posexplode是一个用于将数组（array）拆分为多行的函数。它返回数组中的每个元素以及其在数组中的位置（索引）作为两列输出。

言之。·2023-11-21 03:23

hive使用中遇到的一些小问题及总结

博客都是用的多，登录的少了，端午放假闲来无事就登一登，顺便总结下自己在写hivesql时遇到的些小问题。

辅猪之王·2023-11-20 23:49

hive sql 行列转换开窗函数炸裂函数

hivesql行列转换开窗函数炸裂函数准备原始数据集学生表student.csv讲师表teacher.csv课程表course.csv分数表score.csv员工表emp.csv雇员表employee.csv

李昊哲小课·2023-11-20 21:46

2023.11.16 hivesql高阶函数之json

目录1.数据准备2.操作--方式1:逐个(字段)处理,get_json_objectUDF函数最大弊端是一次只能解析提取一个字段--方式2:逐条处理.json_tuple这是一个UDTF函数可以一次解析提取多个字段--方式3:在建表时候,直接处理json,rowformatSerDe'能处理Json的SerDe类'1.数据准备--演示json解析--需求:把json解析后的数据保存成一个新表--创

白白的wj·2023-11-20 19:27

2023.11.17 -hivesql调优,数据压缩,数据存储

目录1.hive命令和参数配置2.hive数据压缩3.hive数据存储0.原文件大小18.1MB1.textfile行存储格式,压缩后size:18MB2.行存储格式:squencefile,压缩后大小8.89MB3.列存储格式orc-ZILIB,压缩后大小2.78MB4.列存储格式orc-snappy,压缩后大小3.75MB5.列存储格式之parquets,压缩后大小13.09MB4.在linu

白白的wj·2023-11-20 16:33

SQL技巧初级系列③——数据拼接（集合运算union和列连接join)

having,orderby)SQL技巧中级系列①——字符串函数的使用SQL技巧中级系列②——日期函数的使用SQL技巧高级系列①——窗口分析函数的使用SQL技巧高级系列②——聚合函数和CASEWHEN的使用HiveSql

数据小斑马·2023-11-20 14:22

07-Hive优化---高级部分3

一、Hive优化大数据的学习：1、学习工具及其原理（50%~70%）2、学习重要的（java、scala、python、sql[mysql\hivesql\sparksql\flinksql]）(30%

YuPangZa·2023-11-20 12:24

推荐频道

HiveSQL