HiveSQL 第11页

hive中groupby优化_Hive的10种常用优化总结，再也不怕MapReduce分配不均了

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。

h肚肚·2020-12-28 11:33

hive中groupby优化_HiveSQL常用优化方法

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。以我们的日历记录表

工业狂魔·2020-12-28 01:59

python执行hivesql_python 调用shell hive sql

defgenerate_csv_source(data_file):#判断文件是否存在ifnotos.path.exists(data_file):#拉取hive表数据cmd_sql='hive-e"sethive.cli.print.header=true;\select*fromdw.full_d_usr_channel_sum_v3whereds%s'%(data_file)printcmd

何为自律·2020-12-24 03:14

existed hive ods_Hive数据仓库实战

文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、HiveSQL操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用，公司一般都是用它作为公司的数据仓库

weixin_39712724·2020-12-21 04:19

大数据实战记录

目录环境安装搭建编写同步集群脚本以及查看集群进程脚本MySQLHadoopHadoopUIHDFS存储MapReduce计算Yarn资源管理HBaseHBase基本操作HBase运维和优化ZooKeeperHiveHive基本操作HiveSQL

Beth_Chan·2020-12-14 16:54

Hive引擎Spark优化配置参数

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要描述在底层引擎为Spark时，经常会用到的、常见的配置参数。

云掣科技·2020-12-10 21:38

HIVE SQL函数实例讲解

HIVESQL函数实例讲解一、SQL函数汇总1.数学函数2.日期函数3.字符函数4.聚合函数5.取数常用函数二、表操作相关1.建表2.表删除3.表结构查询4.视图与物化视图5.索引三、注意事项四、练习

互联网搬砖侠·2020-12-10 18:47

Hive数据仓库实战

文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、HiveSQL操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用，公司一般都是用它作为公司的数据仓库

陈敬雷-充电了么-CEO兼CTO·2020-12-05 16:36

基于Hadoop的数据仓库工具Hive(附超实用示例)

Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL

yuyuyu·2020-11-30 16:01

基于Hadoop的数据仓库工具Hive(附超实用示例)

Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL

yuyuyu·2020-11-30 16:49

技本功|Hive优化之监控（三）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣科技·2020-11-24 21:28

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣科技·2020-11-24 21:24

HiveSQL电商分析案例30题

问题导读：1、如何通过UDF自定义MD5加密函数，对地址、邮箱等信息进行加密？2、如何对表内容进行检查？3、如何进行数据分析？一、前言Hive学习过程中的一个练习项目，如果不妥的地方或者更好的建议，欢迎指出！我们主要进行一下一些练习：数据结构数据清洗基于Hive的数据分析二、项目需求首先和大家讲一下这个项目的需求：「对某零售企业最近1年门店收集的数据进行数据分析」潜在客户画像用户消费统计门店的资源

☞空白页·2020-11-03 16:12

Presto在滴滴的探索与实践

桔妹导读：Presto在滴滴内部发展三年，已经成为滴滴内部Ad-Hoc和HiveSQL加速的首选引擎。

滴滴技术·2020-10-09 20:22

Hive SQL使用过程中的奇怪现象

HiveSQL是一种类SQL语言，与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法，发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同

大数据技术与数仓·2020-10-09 12:59

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣科技·2020-10-09 12:10

Hive 知识整理--二

目录1.Hive执行流程2.Hive工作原理3.HIve执行顺序4.Hive和传统数据库的比较5.hivesql的mapjoin6.HiveHDFSHBase区别7.维度和度量8.hivesql优化问题

wuli玉shell·2020-09-28 20:32

HiveSql

--类型转换：castSELECTCAST('00321'ASBIGINT)FROMtable;--判断奇数or偶数--获取偶数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=0;--获取奇数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=1;--简单ca

Rainysong·2020-09-28 14:23

Hive使用Calcite CBO优化流程及SQL优化实战

目录HiveSQL执行流程Hivedebug简单介绍HiveSQL执行流程Hive使用Calcite优化HiveCalcite优化流程HiveCalcite使用细则Hive向Calcite提供元数据上一篇主要对

zzzzMing·2020-09-22 19:00

hive mapjoin使用

今天遇到一个Hive的问题，如下hivesql：selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录，A表只有100行记录

lvhuiyin·2020-09-17 12:41

Spark读取文本文档创建DataFrame, 通过RDD转换成DataFrame, 通过SparkSession构建DataFrame 20

前言在Spark2.0版本之前,SparkSQL中SQLContext是创建DataFrame和执行SQL的入口,可以利用hiveContext通过hivesql语句操作hive表数据,兼容hive操作

啊策策·2020-09-17 07:23

Java实现HiveSQL Parser

importcom.xxxx.model.SQLParserResult;importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apache.hadoop.hive.ql.parse.*;importjava.util.*;/***@authoryangxin-ryan*

杨鑫newlfe·2020-09-17 05:44

hive sql语法解读

hivesql学习笔记(1)一、创建表在官方的wiki里，example是这样的：CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name

wenjiangliuto·2020-09-17 00:17

HiveSql的时间函数

获取当前时间:1).current_timestamp------------------2019-08-1000:12:26.6062).unix_timestamp()-------------------15653672023).from_unixtime(unix_timestamp())------------2019-08-1000:14:104).CURRENT_DATE------

武汉的鱼·2020-09-16 12:31

Linux_BigData常用配置/命令

文章目录Linux双网卡配置HadoopZookeeperHBase单机HiveHive表操作HiveSQL操作Hive函数FlumeKafkaKafkaStreamingSparkFlinkLinux

HuiGe94v587·2020-09-16 12:23

storm架构原理及集群部署

离线计算和实时计算离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、zookeeper任务调度1、hivesql2

@ange·2020-09-16 11:13

SemanticException Column xx Found in more than One Tables/Subqueries hivesql

hivesql中出现报错：SemanticExceptionColumnxxFoundinmorethanOneTables/Subqueries（1）首先检查自己给某一个表起的别名是不是这个表中或者联合的表中字段的名

冲鸭，屎壳郎·2020-09-16 10:42

hivesql解析json数组并拆分成多行

原始数据：[{"name":"woods","app_id":"abc123"},{"name":"tiger","app_id":"def456"}]数据存在表dev.woods_test中需求与方法：解析json，一行拆分成两行selecta_jsonfrom(selectsplit(regexp_replace(regexp_extract(json_col,'(\\[)(.*?)(\\])

Time Woods·2020-09-16 06:19

java使用jdbc调用hive出现The query did not generate a result set!

使用java通过jdbc调用hive，执行hivesql时出现如下异常：Exceptioninthread"main"java.lang.reflect.InvocationTargetExceptionatsun.reflect.NativeMethodAccessorImpl.invoke0

天佑凡人·2020-09-15 23:41

Parquet性能测试调优及其优化建议

parquet1、选择parquet的外部因素（1）我们已经在使用spark集群，spark原本就支持parquet，并推荐其存储格式（默认存储为parquet）；（2）hive支持parquet格式存储，使用HiveSql

weixin_33963594·2020-09-15 15:45

Hive数仓筛选出2秒内可能重复下单的订单id列表

面对海量订单人工进行全部排查十分困难且是不现实的，所以在此背景下，基于全量数据，写了一个HiveSQL来筛选出可能重复订单数据。

csdn-延·2020-09-15 14:32

hive sql 优化

优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

仲景武·2020-09-15 12:01

Spark SQL之 UDF自定义函数实战

目录一：UDF含义二：使用scala/java创建的方法直接使用在HiveSQL中三：代码一：UDF含义UDF：（UserDefinedFunction）用户自定义函数二：使用scala/java创建的方法直接使用在

威少SOS·2020-09-15 03:13

Spark SQL概述

Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

ITBOY_ITBOX·2020-09-15 02:11

spark sql 1.6.0 自定义永久函数

sparksql1.5.0也支持Spark(Hive)SQL中UDF的使用相对于使用MapReduce或者SparkApplication的方式进行数据分析，使用HiveSQL或SparkSQL能为我们省去不少的代码工作量

wuzhilon88·2020-09-15 02:49

Hive mapjoin使用(数据倾斜优化)

今天遇到一个Hive的问题，如下hivesql：selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录，A表只有100行记录

TechChan·2020-09-15 00:08

13_Hive优化

Hive优化要点：优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。

weixin_34393428·2020-09-14 23:40

hive实例讲解实现in和not in子句

in查询如果要查询当天登陆的注册用户，需要用in查询，hivesql如下:selectlogin.uidfromloginleftouterjoin

yaoyaoxingkong·2020-09-14 21:07

将hdfs文件导入hive表

hivesql对hdfs的操作最终都会转化为mr任务，下面介绍如何将已经存在的hdfs文件“导入”hive表，很简单条件及要求：1）hdfs文件为经过lzo压缩的seqFile2）seqFile数据样例

luoshi0801·2020-09-14 00:03

HiveSQL面试题

1.我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218u022017/1/236u012017/2/224要求使用SQL统计出每个用户的累积访问次数，如下表所示：用户id月份小计累积u012017-011111u0120

Nice_N·2020-09-13 21:09

grouping sets操作符简化group by+union all操作

GROUPINGSETS就是一种将多个GROUPBY逻辑UNION写在一个HIVESQL语句中的便利写法。

Sql Boy·2020-09-13 20:30

hive数据表去重方法

解决思路：（1）groupby的方法首先新建与test表完全相同的新表test_pure,然后利用groupby在有相同值的若干字段上进行分组统计，正常情况下，hivesql的select是无法取到非groupby

zcc_0015·2020-09-13 14:06

hive sql截取指定分隔符后的字符串

**hivesql截取指定分隔符后的字符串**1、字符串示例：aa/ba/dd/cf2、目的：截取最后一个分隔符‘/‘后的字符串’cf’3、需要的函数：reverse()反转函数，将字符串aa/ba/dd

今天菜里有肉·2020-09-12 21:08

hivesql语法经验

在写及测的过程中发现的，有一些可能需要进一步验证。1FAILED:NullPointerExceptionnull不能用视图作为leftouterjoin的右表2FAILED:UDFArgumentTypeExceptionOnlynumericorstringtypeargumentsareacceptedbutdecimalispassed.在cdhhive0.10中，avg的列不能是deci

shj1119·2020-09-12 07:31

hive常见错误

a.namefromstualeftjoincoursebona.id=b.id错误：SemanticExceptionColumnxxFoundinmorethanOneTables/Subqueries问题：hivesql

大王go巡山·2020-09-12 06:11

hql语句

简介hql为hivesql的缩写。hive本身为java语言开发而成，所以hive上面如果有什么特殊需求，完全可以是用hiveudf订制自己的需求（后续会介绍udf的开发方法）。

Joseph-Growth·2020-09-12 04:48

Spark SQL应用解析

Hive是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

dawandi6620·2020-09-11 14:47

每日生产万亿消息数据入库，腾讯如何突破大数据分析架构瓶颈

每日产生万亿的消息数据入库，需要针对几十亿IMEI手机设备去重，并关联数千亿的历史全表，进行曝光、点击、PV、UV、日活、新增、留存等统计指标分析，当前所有业务的ETL清洗、统计计算、用户画像都全部依赖离线m/r和HiveSQL

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖·2020-09-11 14:56

Spark on hive 与 Hive on spark 的区别

HvieonSpark：（数据源是hive本身）Hvie将自己的MapReduce计算引擎替换为Spark，当我们执行HiveSQL(HQL)时

适合不合适·2020-09-11 03:49

hive,spark sql优化

一.hivesql优化1.发生数据倾斜，如何解决？什么是数据倾斜？

ronaldo_liu2018·2020-09-10 23:29

推荐频道

HiveSQL

hive中groupby优化_Hive的10种常用优化总结，再也不怕MapReduce分配不均了

hive中groupby优化_HiveSQL常用优化方法

python执行hivesql_python 调用shell hive sql

existed hive ods_Hive数据仓库实战

大数据实战记录

Hive引擎Spark优化配置参数

HIVE SQL函数实例讲解

Hive数据仓库实战

基于Hadoop的数据仓库工具Hive(附超实用示例)

基于Hadoop的数据仓库工具Hive(附超实用示例)

技本功|Hive优化之监控（三）

技本功|Hive优化之Spark执行引擎参数调优（二）

HiveSQL电商分析案例30题

Presto在滴滴的探索与实践

Hive SQL使用过程中的奇怪现象

技本功|Hive优化之Spark执行引擎参数调优（二）

Hive 知识整理--二

HiveSql

Hive使用Calcite CBO优化流程及SQL优化实战

hive mapjoin使用

Spark读取文本文档创建DataFrame, 通过RDD转换成DataFrame, 通过SparkSession构建DataFrame 20

Java实现HiveSQL Parser

hive sql语法解读

HiveSql的时间函数

Linux_BigData常用配置/命令

storm架构原理及集群部署

SemanticException Column xx Found in more than One Tables/Subqueries hivesql

hivesql解析json数组并拆分成多行

java使用jdbc调用hive出现The query did not generate a result set!

Parquet性能测试调优及其优化建议

Hive数仓筛选出2秒内可能重复下单的订单id列表

hive sql 优化

Spark SQL之 UDF自定义函数实战

Spark SQL概述

spark sql 1.6.0 自定义永久函数

Hive mapjoin使用(数据倾斜优化)

13_Hive优化

hive实例讲解实现in和not in子句

将hdfs文件导入hive表

HiveSQL面试题

grouping sets操作符简化group by+union all操作

hive数据表去重方法

hive sql截取指定分隔符后的字符串

hivesql语法经验

hive常见错误

hql语句

Spark SQL应用解析

每日生产万亿消息数据入库，腾讯如何突破大数据分析架构瓶颈

Spark on hive 与 Hive on spark 的区别

hive,spark sql优化