HiveSQL 第9页

四万字Hive调优全方位指南（推荐收藏）

本文基本涵盖以下内容：一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一)七、

公众号:肉眼品世界·2022-12-04 03:31

HiveSQL 数据操控、查询语言（DML、DQL）

HiveSQL数据操控、查询语言（DML、DQL）1Load——加载数据将数据load加载到表中时，hive不会进行如何转换，加载操作是将数据文件移动到与Hive表对应的位置的纯复制/移动操作。

Jaden_JH·2022-11-30 09:46

HiveSQL源码之语法词法编译文件解析一文详解

目录前言一、HiveSQL编译流程二、Antrl三、ANTLRWorks参阅前言工欲善其事必先利其器，首先要了解HiveSQL的编译语法的流程，还是需要懂得HiveSQL的执行流程以及编译规则。

fanstuck·2022-11-22 16:59

基于Python-sqlparse的SQL字段血缘追踪解析实现

目录前言一、字段血缘1.区别字段2.区别标识符序列3.功能函数设定二、字段血缘可视化点关注，防走丢，如有纰漏之处，请留言指教，非常感谢前言SQL解析和血缘追踪的研究现在差不多可以告一段落了，从8月22日写HiveSQL

fanstuck·2022-11-22 16:49

Hive——Hive/HiveSQL性能优化

文章目录Partition分区1.静态分区StaticPartition2.动态分区DynamicPartitionBucket分桶使用Spark作为执行引擎使用压缩使用ORC格式Join优化1.STREAMTABLE2.前置过滤条件3.Multi-wayJoin4.MapJoin（BroadcastJoin/Broadcast-HashJoin）5.SkewJoin基于代价的优化参考我们知道Hi

aof_·2022-11-18 09:21

Hive—— 1.hive架构及原理

Hive由Facebook实现并开源，是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL)查询功能，底层数据是存储在HDFS上，Hive的本质是将SQL

blueicex2020·2022-11-18 09:18

大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复

本片博文是“大数据问题排查系列”之一，讲述某HIVESQL作业因为HIVE中的元数据与HDFS中实际的数据不一致引起的一个问题的排查和修复。以下是正文。

明哥的IT随笔·2022-11-12 04:59

Hive：用SQL对数据进行操作，导入数据、清洗脏数据、统计数据订单、优化结果输出等等

4.1方式一：shell命令4.2方式二：HQL(hivesql)4.3方式三：更新表，过滤首行(个人建议用这个SQL命令)5、每个用户有多少个订单？(分组)6、每个用户一个订单平均是多少商品？

唐樽·2022-11-08 10:41

5.1 Apache Hive DML语句与函数使用

ApacheHiveDML语句与函数使用一、HiveSQLDML语法之加载数据1、HiveSQL-DML-Load加载数据Load语法功能Load语法规则语法规则之filepath语法规则之LOCALLOCAL

周纠纠·2022-11-08 10:11

hiveSQL执行，转化为MR过程

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。------百度百科--hive的库、表等数据操作实际是hdfs系统中的目录和文件，让开发者可以通过sql语句，像操作关系数

寒枫__梦·2022-11-08 10:40

HiveSQL函数优化原理

算法与智能商业·2022-11-08 10:39

hive sql 基本命令总结

hive可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL。

maligebilaowang·2022-11-08 10:39

HiveSql常用的时间维度计算方法（月初、月末、周几）及时间维度表生成

目录0基础函数trunc()last_day()add_months()current_date()/current_datenext_daypmod()to_dateyearmonthhourdayofweekweekofyearquarterdatediffdate_adddate_subadd_monthsmonths_betweendate_format1关于月的计算1.1上月末1.2上月

莫叫石榴姐·2022-11-08 10:39

Hive及Hive SQL优化

Hive及HiveSQL优化参考Hive/HiveSQL常用优化方法全面总结1.列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。

hopeAnyDay·2022-11-08 10:39

HiveSQL操作

文章目录1、SQL语言类型2、Hive的DDL操作：2.1、创建表：2.2、插入数据：2.3、修改表：2.4、删除表2.5分区2.6分桶2.7、总结3、Hive表的DQL4、Hive中的内置函数4.1、字符串处理相关4.2、JSON字符串解析4.3、聚合函数4.4、数据类型转化CAST5、Hive中的视图和索引5.1、视图5.2、索引6、Hive的日期函数时间函数6.1、Hive的日期函数6.2、

Always_Best_Sign_X·2022-11-08 10:08

HiveSQL常用优化方法经验总结

1.写在前面的话此处省略150字…2.Hive中解决数据倾斜的场景2.1大表Join小表时的数据倾斜(mapjoin) 在大表Join小表时,解决数据倾斜最好的方式是使用MapJoin,避免Shuffle,从而也避免了数据倾斜.mapjoin主要通过下面的参数来调节:#默认是truesethive.auto.convert.join=true--开启mapjoin//1.x版本及以后默认是开启的

enoughgood·2022-11-08 10:08

4.2 Hive SQL

HiveSQL-DDL一、HiveSQL语言：DDL建库、建表1、HiveSQL之数据库与建库SQL中DDL语法的作用Hive中DDL语法的使用数据库databasecreatedatabaseusedatabasedropdatabase2

周纠纠·2022-11-08 10:07

Flink1.16 发布新特性

02SpeculativeExecution发现和缓解热点机器对作业的影响03HybridShuffle提供资源利用率和数据传输率04DynamicPartitionPruning过滤无用数据，提高处理效率Flink1.16Preview:HiveSQL

京河小蚁·2022-11-03 10:43

HiveSQL优化技巧总结

前言一、SQL语句的结构二、SQL语句的执行顺序三、HQL语句优化1.列裁剪和分区裁剪2.使用sortby代替orderby3.使用groupby代替distinct4.使用withas5.聚合操作--groupingsets、cube、rollup5.1groupingsets5.2cube5.3rollup6.unionall时可以开启并发执行7.表的join优化8.数据倾斜8.1参数调优8.

笑看风云路·2022-11-02 07:47

Spark执行HiveSQL以及Hive自定义函数

Spark执行Hive提示：Spark执行Hive的表只能是外表或是表不包含ACID事物的表文章目录Spark执行Hive前言一、pom.xml导入依赖执行的包二、使用步骤1.编写代码2.Spark执行脚本异常处理前言Hive一般作为大数据的数据仓库，因其语句和SQL大部分通用。所以很多数据为存储在Hive表中。提示：以下是本篇文章正文内容，下面案例可供参考一、pom.xml导入依赖执行的包代码如

swg321321·2022-10-30 19:17

Hive3详细教程（八）Hive3自定义UDF函数（elipse版）

因为Hive本身是Java开发的，所以我们可以使用Java定义函数供HiveSQL使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。

Java朱老师·2022-10-26 07:59

Hive3详细教程（九）Hive3自定义UDF函数（IDEA Maven版）

因为Hive本身是Java开发的，所以我们可以使用Java定义函数供HiveSQL使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。

Java朱老师·2022-10-26 07:59

hivesql中 exists 用法

有一次面试的时候，面试官问了这么一个场景题：一家门店一个月内每位顾客访问的目的可能有多种，并给到访顾客的目的打标签1、2、3、4这四类，现在要统计这家门店一个月内没有3、4标签的顾客明细。（也就是顾客到访标签只有1或者2，但凡被打过3或4标签的客户都要被排除掉）很明显，这个场景用exists就很合适了。先建一张表，插入几条数据，简单模拟一下这个场景如上图，到访门店的一共四位顾客，不存在标签3、4的

Wflowerd·2022-10-25 21:32

hive调优常见策略

fetch抓取机制通俗解释：在执行hivesql的时候能不跑MapReduce程序尽量不跑MapReduce程序。直接针对表所对应的文件进行操作fetch默认是开启的。

大数据架构师Pony·2022-10-18 10:35

谈笑间学会大数据-Hive调优策略

谈笑间学会大数据-Hive调优策略HiveSQL是一种声明试语言，用户会提交声明式的查询，而Hive会将其转换成MapReducejob，大多数情况下，用户不需要了解Hive内部的实现原理的，这样就可以专注业务的事情

MrZhangBaby·2022-10-18 10:31

大数据——Hive SQL优化

大数据——HiveSQL优化一、SELECT字段尽可能少，数据过滤尽可能提前二、能不用JOIN连接的就不用三、数据倾斜问题四、多表join时key保持一致五、去除空值和无意义的值一、SELECT字段尽可能少

长不大的大灰狼·2022-09-22 22:19

大数据系列 | SparkSQL&HiveSQL报错解决方法

问题原因：问题报错提示：Distinctwindowfunctionsarenotsupported:count(distinctxx)windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因：查阅资料后发现sparksql中的窗口函数不支持COUNT(DISTINCT

woshinsy·2022-09-21 13:09

CDH6.3.2 Hive on spark报错is running beyond physical memory limits

Hue跑hivesql时报错如下java.lang.IllegalStateException:ConnectiontoremoteSparkdriverwaslost查看yarn报错日志如下Container

格格巫 MMQ!!·2022-09-21 13:38

大数据面试之hive重点(二)

大数据面试之hive重点(二)HiveSQL转化为MR的过程？

大数据小理·2022-09-21 13:35

【踩坑实录】hive cli查询不显示表头

2.可修改hive配置文件，永久生效一、问题描述：在Hue中执行hivesql查询结果，没有显示出表头。二、解决方法：1.只调参，只在当前会话内生效。

chimchim66·2022-09-15 12:13

python explode_pandas dataframe 中的explode函数用法详解

在使用pandas进行数据分析的过程中，我们常常会遇到将一行数据展开成多行的需求，多么希望能有一个类似于hivesql中的explode函数。这个函数如下：Code#!

weixin_39846553·2022-09-11 07:52

数据分析常见SQL面试题汇总

文章目录在互联网公司实习中使用HiveSQL的一些体会和注意点SQL——计算次日留存率ntile的使用在不能使用ORDRBY的情况下解决排序问题最差是第几名(二)求中位数的排名考试分数(五)中位数SQL70

数据闲逛人·2022-09-10 18:51

SQL中去重的三种方式

SQL去重是数据分析工作中比较常见的一个场景；在MySQL中通常是使用distinct或groupby子句，但在支持窗口函数的sql（如HiveSQL、Oracle等等）中还可以使用row_number

斯沃福德·2022-09-09 09:23

Hive时间日期函数一文详解+代码实例

目录前言一、HiveSQL运行过程二、Hive时间函数1.获取当前时间1.current_date()2.current_timestamp()3.unix_timestamp()2.获取指定时间维度1

fanstuck·2022-09-08 10:49

大白话描述SQL面试的知识点

一、SQL(结构化查询语言)SQL的分类：基本需要了解的：MySQL(99SQL)、HQL(HiveSQL)、SparkSQL、ImpalaSQL、OracleSQL的应用：MySQL数据库用于存放元数据较多

来自偶然的尘土·2022-09-06 09:51

HiveSql调优系列之Hive严格模式，如何合理使用Hive严格模式

所谓Hive的严格模式，就是为了避免用户提交一些恶意SQL，消耗大量资源进而使得运行环境崩溃做出的一些安全性的限制。

鲁边·2022-09-02 18:00

Spark SQL and DataFrames

SparkSQL将SparkSQL转换为RDD，然后提交到集群执行，执行效率非常快，比如hive是将hiveSQL转换为MapRe

brz_em·2022-08-22 23:13

SparkSql

MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用2）Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql

zhangronglin1·2022-08-18 20:23

大数据开发选择之技术路线 or 业务路线？

1）离线数仓的话写HiveSQL或者SparkSQL比较多，但也不是单纯的写写SQ

sheep8521·2022-07-31 10:10

hive sql和mysql的区别_【mysql和hivesql区别】

在线QQ客服：1922638专业的SQLServer、MySQL数据库同步软件默认情况下，HiveSQL的底层基于MR程序运行。

琉璃纱·2022-07-30 11:31

硬刚Hive | 4万字基础调优面试小总结

本文基本涵盖以下内容：一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一)七、

浪尖聊大数据-浪尖·2022-07-20 10:11

hivesql修改字段类型_Hive SQL汇总

创建数据库createdatabaseifnotexistssopdmcomment'thisistestdatabase'withdbproperties('creator'='gxw','date'='2014-11-12')--数据库键值对属性信息location'/my/preferred/directory';显示所有表showtables;显示表的描述信息desc[extended,f

weixin_39782832·2022-07-15 09:24

大数据SQL优化之数据倾斜解决案例全集

外部表现的话，在HiveSQL任务里看到map或者reduce的进度一直是99%持续数小时没有变化；在SparkSQL里则是某个stage里，正在运行的任务数量长时间是1或者2不变。

OPPO互联网技术官方账号·2022-07-12 12:25

HiveSQL优化方法

Hive调优集锦Hive/HiveSQL常用优化方法全面总结关于Hive优化的四种方法总结HiveSQL优化Hive数据倾斜问题Hive常见的数据倾斜及调优技巧HiveSQL排序Hive作为大数据领域常用的数据仓库组件

天线嘟嘟茄·2022-06-15 14:14

第3节 hudi hive 数据同步，实现湖仓一体 cdh6.3.2存在版本兼容问题，spark可以查询HoodieParquetRealtimeInputFormat格式表，hive查询报错

hive（1）将Hudi目录编译好的hudi-hadoop-mr-bundle-0.9.0.jar，复制到hive的lib下让hive支持hudi,需要重启hiveserver2服务,或者不加入也可，在执行hivesql

第一次看海·2022-05-31 07:11

离线数据处理工具、准实时数据处理工具与实时数据处理工具

1、离线数据：hiveHive查询操作过程严格遵守HadoopMapReduce的作业执行模型，Hive将用户的HiveSQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop

烧卖攻城·2022-04-24 15:53

Hive系列（一）—— Hive初识及基础介绍

它可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL)查询功能；其底层数据是存储在HDFS上，Hive的本质是将SQL语句转换

BigData_Hubert·2022-04-24 14:52

HiveSQL高级进阶10大技巧

直接上干货，HiveSQL高级进阶技巧，重要性不言而喻。掌握这10个技巧，你的SQL水平将有一个质的提升，达到一个较高的层次！

·2022-03-24 14:19

万字长文详解HiveSQL执行计划

本文目录：一、前言二、SQL的执行计划explain的用法explain的使用场景案例一：join语句会过滤null的值吗？案例二：groupby分组语句会进行排序吗？案例三：哪条sql执行效率高呢？案例四：定位产生数据倾斜的代码段explaindependency的用法案例一：识别看似等价的代码案例二：识别SQL读取数据范围的差别explainauthorization的用法一、前言HiveSQ

五分钟学大数据·2022-03-22 10:00

利用hue调度shell脚本和hive脚本-Demo演示

在HDFS上创建一个shell脚本程序文件在HDFS上创建一个hivesql脚本程序文件如以下文件打开工作流调度页面。调用hive脚本调用shell脚本

小哇666·2022-02-28 15:56

推荐频道

HiveSQL