HiveSQL 第15页

Hive-hiveSQL调优

2019独角兽企业重金招聘Python工程师标准>>>前言很早以前也是写过hivesql优化分享，但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。

weixin_34114823·2020-07-08 16:22

Hive调优实战

Hive优化总结---by食人花优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。

szn·2020-07-08 07:39

mapjoin解析

今天遇到一个hive的问题，如下hivesql：selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录，A表只有100行记录

love others as self·2020-07-08 05:09

Hive SQL常用命令总结，大数据开发人员按需收藏

这种SQL就是HiveSQL，她可以将SQL语句转换为MapReduce任务运行，通过特殊的SQL去查询分析需要的内容，使不熟悉mapreduce的用户很方便的利用SQL语言查询，

技术大咖秀·2020-07-08 05:42

Run Hive on spark tasks with Hue, always running more than 30 min

环境CDH6.3.1Hive2.1.1（执行引擎Spark）HueSpark2.4.0问题Hue执行hivesql:理论上14.005s已经执行完了，结果已经正常返回，但是hue上的job持续了30m才结束

bertramlau·2020-07-07 13:30

Hive SQL 解析及应用

SQL已经成为各家"数据公司"必不可少的数据查询语言.Hive在其中的地位也更是显而易见,大多数批处理任务还是在使用HiveSQL开发.从Table级别看,一个HiveSQL文件,包含了如下信息:DROP

haitaoyao·2020-07-07 12:17

hive调优案例

Hive优化核心思想：把HiveSQL当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain显示执行计划EXPLAIN

浮生若梦1379·2020-07-06 19:19

HiveSQL DQL join与union

3.3join查询将多个表通过字段关联在一起，形成查询结果创建student_location表，存储学生的地理位置信息CREATETABLEstudent_location(idstringcomment'stdno',provincestringcomment'provincename',citystringcomment'cityname',regionstringcomment'regio

想艳阳天里的你·2020-07-06 04:20

hive sql 的总结分析

旨在对hivesql整体总结记录todo总结一、hive的不同种类的joinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，union支持LEFTSEMIJOIN和CROSSJOIN

lianchaozhao·2020-07-06 02:02

Spark SQL

SparkSQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。

weixin_34124939·2020-07-06 00:08

hiveSql

第十二单元常用函数、窗口函数（开窗函数）1、常用函数1.1字符串--字符串拼接函数concatselectconcat('abc','def');selectconcat_ws('-','abc','def');--求字符串长度lengthselectlength('jsdfijsdkfjkdsfjkdf');1.2日期--日期函数to_dateselectto_date('2019-09-111

故里良田·2020-07-05 21:27

hiveSQl学习

语法：https://blog.csdn.net/hguisu/article/details/7256833Hive入门及常用指令：https://blog.csdn.net/u014236541/article/details/78245924外部表与内部表区别：https://blog.csdn.net/qq_36743482/article/details/78393678创建分区表：ht

Kevinniec·2020-07-05 05:47

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-07-05 01:27

mapreduce 实现内连接，左连接，右连接，全连接，反连接

mapreduce可以实现sql所做的任何查询操作，通过写mapreduce可以了解hadoop里面的数据操作，提高hivesql的性能。

勿在浮沙筑高台LS·2020-07-04 11:09

大数据学习路线（完整详细版）

清洗：Spark、HiveSQL/SparkSQL、MapReduce（已经过时）存储：HDFS、Alluxio（分布式内存存储）、Redis（高速缓存）

✾ ͡冷೨夏ʚɞ͜✿·2020-07-04 01:19

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-07-02 16:00

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-07-02 16:00

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

collen7788·2020-07-02 15:54

Ubuntu16安装HIVE全程记录

什么是HiveHive由Facebook实现并开源，是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL)查询功能，底层数据是存储在HDFS上。

chengshuo678·2020-07-02 05:41

HiveSQL基础之常用函数

1.如何把时间戳转换成日期语法from_unixtime(bigintunixtime,stringformat)format1.yyyy-MM-ddhh:mm:ss2.yyyy-MM-ddhh3.yyyy-MM-ddhh:mm4.yyyyMMdd举例SELECTfrom_unixtime(paytime,'yyyy-MM-ddhh:mm:ss')FROMuser_tradeWHEREdt='20

华夏_数据分析·2020-07-01 09:48

Hive/HiveSQL常用优化方法全面总结

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。

大数据技术与架构·2020-07-01 05:54

Spark基本架构及运行原理

SparkSQL:Spark处理结构化数据的库，就像HiveSQL,Mysql一样，企业中用来做报表统计。SparkStreaming:实时数据流处理组件，类似Storm。SparkStrea

zxc123e·2020-06-30 20:51

Hive的10种常用优化总结，再也不怕MapReduce分配不均了

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。

Leo.yuan·2020-06-30 10:29

[Hive]Hive调优：让任务并行执行

业务背景extract_trfc_page_kpi的hivesql如下：setmapred.job.queue.name=pms;sethive.exec.reducers.max=8;setmapred.reduce.tasks

yeweiouyang·2020-06-30 07:53

Oozie作业调度 - Demo

可靠的工作流调度系统，它内部定义了三种作业：1.工作流作业：由一系列动作构成的有向无环图（DAGs）2.协调器作业：按时间频率周期性触发Oozie工作流的作业3.Bundle作业：管理协调器作业一、首先示例提交HiveSQL

迷失技术de小猪·2020-06-30 06:19

Hive调优实战

优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

xch_w·2020-06-29 23:33

hive部分：hive的优化，MapReduce的优化

hive核心思想：把HiveSQL当做Mapreduce程序去优化。以下SQL不会转为Mapreduce来执行：select仅查询本表字段；where仅对本表字段做条件过滤。

道法—自然·2020-06-29 22:26

HiveSql性能优化

一、解决数据倾斜1.过滤掉null部分key值存在大量空字段，会hash到同一reduce，造成reduce长尾，将null值过滤掉举例：selectuser_idfromlogswherestatdate='20170815'whereuser_idisnotnull;2.hivejoin倾斜：设置joinskew参数解决sethive.optimize.skewjoin=true;sethiv

攻城狮Kevin·2020-06-29 22:52

HiveSql中limit10的坑——对大数据量的表查询加group by

一般查询hive表中某个字段是否存在某个值，会使用如下查询语句select*from表名wheredt=XXXXand字段like'%某个值%'limit10；这种比较适合hive表数据量较小的情况，出现limit10，hive会默认判断此表数据量不大，只开启一个map进行查询，如果对于大表，比如好几百G上T的数据量，这么大的数据量只开一个map一方面查询慢，另一方面，因为数据量太大容易把机器跑崩

攻城狮Kevin·2020-06-29 22:52

dip-data-analyze 使用的hiveserver 实践之 jvm调优

其中5分钟任务有2个，小时任务有20个以上，晚上执行的任务有6个.任务并不多，都是使用hivesql连接到hiveserver去执行。本周曾经有2次hiveserver失效。

wf1982·2020-06-29 17:54

SparkSQL之一张贴告诉你什么是SparkSQL

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

王傲旗的大数据之路·2020-06-29 11:17

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的HiveETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入

ming_rw·2020-06-29 09:19

impalasql和hivesql的窗口函数和根据月份时间增量取数

窗口函数和根据月份时间增量取数今天跟大家分享一下窗口函数举个例子：假设当前环境为impala，droptableifexistsdw.stu;----dw库中的stu表-------------------createtabledw.stu(fperiodstringcomment’年月’,namestringcomment’姓名’,ageintcomment’年龄’,salarydoubleco

全能小孩·2020-06-29 08:31

hive sql 实现时间循环

实现效果：hivesql实现：–根据开始时间和结束时间生成时间段内所有时间selectregexp_replace(date_add(dt,row_number()over(orderbydt)-1),

西西南偏南·2020-06-29 08:26

flink SQL 外关联

flinkSQL的底层解析用的是apachecalcite,hiveSQL也用的calcite解析，因此flinkSQL的大致原理和我们常见的sql差不

呔小怪兽休走·2020-06-28 22:53

算法人必懂的Hive知识-四道Hive面试&笔试题解析

近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的HiveSQL问题，Hive作为算法工程师的一项必备技能，在面试中也是极有可能被问到的，所以有备无患，本文将对这四道题进行详细的解析，还是有一定难度的

悄悄的努力·2020-06-28 21:26

hive学习二

主要是想了解一下和hivesql是如何转换成mapreduce任务的，所以开搞。这个图主要描述了hive对于各种参数如-e、-f等参数的解析和对hivesql语句的完整性的处理等。

想什么就写什么·2020-06-28 21:47

HiveSQL优化

HiveSQL优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了（没有之一的那种），单独写MapReduce任务的应该不多了，主要还是用的HiveSQL

一直青蛙·2020-06-28 20:44

hive精选50题

Hivesql语句必练50题-入门到精通(1)spark-shell–masterspark://node1:7077–executor-memory1g–total-executor-cores2–jars

浮生若梦1379·2020-06-28 20:39

Hive学习之路（一）Hive初识

Hive简介什么是Hive1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在

weixin_33704234·2020-06-28 03:03

Pandas处理大数据的一些小技巧

近期的工作和HiveSQL打交道比较多，偶尔遇到一些SQL不好解决的问题，会将文件下载下来用pandas来处理，由于数据量比较大，因此有一些相关的经验可以和大家分享近期的工作和HiveSQL打交道比较多

weixin_33682719·2020-06-28 03:23

[大数据面试题]hadoop核心知识点

*这里不涉及HiveSQL和HBase操作的笔试题，这些东西另有总结。1.MR意义。MR是一个用于处理大数据的分布式离线计算框架，它采用”分而治之“的思想。

weixin_30750335·2020-06-28 00:25

hive数据类型及其数据转换

由于需要使用hivesql进行数据查询，同时涉及多个不同类型的字段的组合，看Hivesql的文档相关和资料才知道，hive是支持大部分基础数据类型之间的相互转换的。

weixin_30730151·2020-06-28 00:28

hive引擎的选择：tez和spark

问题&&不便tez：在hivesql中使用了union或join操作tez会将任务切分,每个小任务，创建一个文件文件夹，如下：这就会造成一个非常严重的问题，假如这张表的下文，使用这张表没有用tez，而是使用

weixin_30709061·2020-06-27 23:31

HiveSQL解析过程详解

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的HiveETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入

weixin_30487317·2020-06-27 20:04

hiveSql常见错误记录

1.Instrictmode,ifORDERBYisspecified,LIMITmustalsobespecified.这个错误提示是因为在hive下写的sql使用了orderby对数据进行数据排序，因为orderby事实上是全局排序，因此，在reduce阶段仅为一个reduce做汇总，为此，数据量庞大，在hive的严格模式下禁止全局排序的。两种解决方案更改hive严格模式设定sethive.m

weixin_30375427·2020-06-27 18:06

Hadoop Hive sql语法详解

分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL去查询分析需要的内容，这套SQL简称HiveSQL

weixin_30355437·2020-06-27 18:47

HiveSQL解析过程详解

HiveSQL解析过程详解Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。

ljtyxl·2020-06-27 08:09

一、HiveSQL基本操作

文章目录一、Hive数据类型1、基本类型2、复杂类型二、存储格式1、textfile2、SequenceFile3、RCFile4、ORCFile5、Parquet三、操作数据库1、创建数据库2、删除数据库3、进入数据库四、操作表属性1、显示数据库下面所有表2、删除表3、显示建表结果4、显示表分区5、修改表属性6、表重命名7、新增列8、删除列9、修改列10、删除分区11、增加分区12、修改分区、L

Wells·Lee·2020-06-27 05:50

hive表自增列实现方法（完全实现表中数据自增列唯一）之优化一（加快文件处理速度，已经非常非常快了）

Hive表自增列的实现，我在网上找了好久，大都是自己编写UDF（或者是UDAF/UDTF）之类的，或者是直接使用hive的lib库中提供的jar包，加载之后创建方法，然后在hivesql中调用，不过这些都会遇到一个问题

第一片心意·2020-06-27 04:22

推荐频道

HiveSQL

Hive-hiveSQL调优

Hive调优实战

mapjoin解析

Hive SQL常用命令总结，大数据开发人员按需收藏

Run Hive on spark tasks with Hue, always running more than 30 min

Hive SQL 解析及应用

hive调优案例

HiveSQL DQL join与union

hive sql 的总结分析

Spark SQL

hiveSql

hiveSQl学习

【赵强老师】什么是Spark SQL？

mapreduce 实现内连接，左连接，右连接，全连接，反连接

大数据学习路线（完整详细版）

【赵强老师】什么是Spark SQL？

【赵强老师】什么是Spark SQL？

【赵强老师】什么是Spark SQL？

Ubuntu16安装HIVE全程记录

HiveSQL基础之常用函数

Hive/HiveSQL常用优化方法全面总结

Spark基本架构及运行原理

Hive的10种常用优化总结，再也不怕MapReduce分配不均了

[Hive]Hive调优：让任务并行执行

Oozie作业调度 - Demo

Hive调优实战

hive部分：hive的优化，MapReduce的优化

HiveSql性能优化

HiveSql中limit10的坑——对大数据量的表查询加group by

dip-data-analyze 使用的hiveserver 实践之 jvm调优

SparkSQL之一张贴告诉你什么是SparkSQL

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

impalasql和hivesql的窗口函数和根据月份时间增量取数

hive sql 实现 时间循环

flink SQL 外关联

算法人必懂的Hive知识-四道Hive面试&笔试题解析

hive学习二

HiveSQL优化

hive精选50题

Hive学习之路 （一）Hive初识

Pandas处理大数据的一些小技巧

[大数据面试题]hadoop核心知识点

hive数据类型及其数据转换

hive引擎的选择：tez和spark

HiveSQL解析过程详解

hiveSql常见错误记录

Hadoop Hive sql语法详解

HiveSQL解析过程详解

一、HiveSQL基本操作

hive表自增列实现方法（完全实现表中数据自增列唯一）之优化一（加快文件处理速度，已经非常非常快了）

hive sql 实现时间循环

Hive学习之路（一）Hive初识