E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
hive中groupby优化_Hive的10种常用优化总结,再也不怕MapReduce分配不均了
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
h肚肚
·
2020-12-28 11:33
hive中groupby优化
hive中groupby优化_
HiveSQL
常用优化方法
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。以我们的日历记录表
工业狂魔
·
2020-12-28 01:59
hive中groupby优化
python执行
hivesql
_python 调用shell hive sql
defgenerate_csv_source(data_file):#判断文件是否存在ifnotos.path.exists(data_file):#拉取hive表数据cmd_sql='hive-e"sethive.cli.print.header=true;\select*fromdw.full_d_usr_channel_sum_v3whereds%s'%(data_file)printcmd
何为自律
·
2020-12-24 03:14
python执行hivesql
existed hive ods_Hive数据仓库实战
文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、
HiveSQL
操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库
weixin_39712724
·
2020-12-21 04:19
existed
hive
ods
大数据实战记录
目录环境安装搭建编写同步集群脚本以及查看集群进程脚本MySQLHadoopHadoopUIHDFS存储MapReduce计算Yarn资源管理HBaseHBase基本操作HBase运维和优化ZooKeeperHiveHive基本操作
HiveSQL
Beth_Chan
·
2020-12-14 16:54
大数据
Hive引擎Spark优化配置参数
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。本文主要描述在底层引擎为Spark时,经常会用到的、常见的配置参数。
云掣科技
·
2020-12-10 21:38
大数据
hive
spark
HIVE SQL函数实例讲解
HIVESQL
函数实例讲解一、SQL函数汇总1.数学函数2.日期函数3.字符函数4.聚合函数5.取数常用函数二、表操作相关1.建表2.表删除3.表结构查询4.视图与物化视图5.索引三、注意事项四、练习
互联网搬砖侠
·
2020-12-10 18:47
数据分析必备技能
数据产品经理知识库
大数据知识库
hive
sql
数据分析
数据仓库
hadoop
Hive数据仓库实战
文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、
HiveSQL
操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库
陈敬雷-充电了么-CEO兼CTO
·
2020-12-05 16:36
数据仓库
机器学习
大数据
分布式
深度学习
基于Hadoop的数据仓库工具Hive(附超实用示例)
Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
yuyuyu
·
2020-11-30 16:01
hadoop
数据仓库
基于Hadoop的数据仓库工具Hive(附超实用示例)
Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
yuyuyu
·
2020-11-30 16:49
hadoop
数据仓库
技本功|Hive优化之监控(三)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣科技
·
2020-11-24 21:28
运维
mysql
大数据
优化
云服务
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣科技
·
2020-11-24 21:24
大数据
hive
spark
HiveSQL
电商分析案例30题
问题导读:1、如何通过UDF自定义MD5加密函数,对地址、邮箱等信息进行加密?2、如何对表内容进行检查?3、如何进行数据分析?一、前言Hive学习过程中的一个练习项目,如果不妥的地方或者更好的建议,欢迎指出!我们主要进行一下一些练习:数据结构数据清洗基于Hive的数据分析二、项目需求首先和大家讲一下这个项目的需求:「对某零售企业最近1年门店收集的数据进行数据分析」潜在客户画像用户消费统计门店的资源
☞空白页
·
2020-11-03 16:12
Hive
Presto在滴滴的探索与实践
桔妹导读:Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和
HiveSQL
加速的首选引擎。
滴滴技术
·
2020-10-09 20:22
开源
大数据
编程语言
hadoop
数据库
人工智能
Hive SQL使用过程中的奇怪现象
HiveSQL
是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同
大数据技术与数仓
·
2020-10-09 12:59
hive
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣科技
·
2020-10-09 12:10
大数据
hive
spark
Hive 知识整理--二
目录1.Hive执行流程2.Hive工作原理3.HIve执行顺序4.Hive和传统数据库的比较5.
hivesql
的mapjoin6.HiveHDFSHBase区别7.维度和度量8.
hivesql
优化问题
wuli玉shell
·
2020-09-28 20:32
Hive
hive
HiveSql
--类型转换:castSELECTCAST('00321'ASBIGINT)FROMtable;--判断奇数or偶数--获取偶数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=0;--获取奇数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=1;--简单ca
Rainysong
·
2020-09-28 14:23
Hive使用Calcite CBO优化流程及SQL优化实战
目录
HiveSQL
执行流程Hivedebug简单介绍
HiveSQL
执行流程Hive使用Calcite优化HiveCalcite优化流程HiveCalcite使用细则Hive向Calcite提供元数据上一篇主要对
zzzzMing
·
2020-09-22 19:00
hive mapjoin使用
今天遇到一个Hive的问题,如下
hivesql
:selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录
lvhuiyin
·
2020-09-17 12:41
hive
Spark读取文本文档创建DataFrame, 通过RDD转换成DataFrame, 通过SparkSession构建DataFrame 20
前言在Spark2.0版本之前,SparkSQL中SQLContext是创建DataFrame和执行SQL的入口,可以利用hiveContext通过
hivesql
语句操作hive表数据,兼容hive操作
啊策策
·
2020-09-17 07:23
Spark社区
Java实现
HiveSQL
Parser
importcom.xxxx.model.SQLParserResult;importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apache.hadoop.hive.ql.parse.*;importjava.util.*;/***@authoryangxin-ryan*
杨鑫newlfe
·
2020-09-17 05:44
Java
大数据挖掘与大数据应用案例
hive sql语法解读
hivesql
学习笔记(1)一、创建表在官方的wiki里,example是这样的:CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name
wenjiangliuto
·
2020-09-17 00:17
HiveSql
的时间函数
获取当前时间:1).current_timestamp------------------2019-08-1000:12:26.6062).unix_timestamp()-------------------15653672023).from_unixtime(unix_timestamp())------------2019-08-1000:14:104).CURRENT_DATE------
武汉的鱼
·
2020-09-16 12:31
Hive
Linux_BigData常用配置/命令
文章目录Linux双网卡配置HadoopZookeeperHBase单机HiveHive表操作
HiveSQL
操作Hive函数FlumeKafkaKafkaStreamingSparkFlinkLinux
HuiGe94v587
·
2020-09-16 12:23
BigData
Linux
storm架构原理及集群部署
离线计算和实时计算离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、zookeeper任务调度1、
hivesql
2
@ange
·
2020-09-16 11:13
大数据
storm
SemanticException Column xx Found in more than One Tables/Subqueries
hivesql
hivesql
中出现报错:SemanticExceptionColumnxxFoundinmorethanOneTables/Subqueries(1)首先检查自己给某一个表起的别名是不是这个表中或者联合的表中字段的名
冲鸭,屎壳郎
·
2020-09-16 10:42
大数据
hivesql
解析json数组并拆分成多行
原始数据:[{"name":"woods","app_id":"abc123"},{"name":"tiger","app_id":"def456"}]数据存在表dev.woods_test中需求与方法:解析json,一行拆分成两行selecta_jsonfrom(selectsplit(regexp_replace(regexp_extract(json_col,'(\\[)(.*?)(\\])
Time Woods
·
2020-09-16 06:19
大数据
json
hive
大数据
java使用jdbc调用hive出现The query did not generate a result set!
使用java通过jdbc调用hive,执行
hivesql
时出现如下异常:Exceptioninthread"main"java.lang.reflect.InvocationTargetExceptionatsun.reflect.NativeMethodAccessorImpl.invoke0
天佑凡人
·
2020-09-15 23:41
Hive
Java
Parquet性能测试调优及其优化建议
parquet1、选择parquet的外部因素(1)我们已经在使用spark集群,spark原本就支持parquet,并推荐其存储格式(默认存储为parquet);(2)hive支持parquet格式存储,使用
HiveSql
weixin_33963594
·
2020-09-15 15:45
Hive数仓筛选出2秒内可能重复下单的订单id列表
面对海量订单人工进行全部排查十分困难且是不现实的,所以在此背景下,基于全量数据,写了一个
HiveSQL
来筛选出可能重复订单数据。
csdn-延
·
2020-09-15 14:32
hive
大数据
sql
大数据
hive
订单
防重
hadoop
hive sql 优化
优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
仲景武
·
2020-09-15 12:01
hive
Spark SQL之 UDF自定义函数实战
目录一:UDF含义二:使用scala/java创建的方法直接使用在
HiveSQL
中三:代码一:UDF含义UDF:(UserDefinedFunction)用户自定义函数二:使用scala/java创建的方法直接使用在
威少SOS
·
2020-09-15 03:13
#
Spark
SQL
Spark SQL概述
Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
ITBOY_ITBOX
·
2020-09-15 02:11
Spark
spark sql 1.6.0 自定义永久函数
sparksql1.5.0也支持Spark(Hive)SQL中UDF的使用相对于使用MapReduce或者SparkApplication的方式进行数据分析,使用
HiveSQL
或SparkSQL能为我们省去不少的代码工作量
wuzhilon88
·
2020-09-15 02:49
hadoop学习
spark
hive
Hive mapjoin使用(数据倾斜优化)
今天遇到一个Hive的问题,如下
hivesql
:selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录
TechChan
·
2020-09-15 00:08
Hadoop
13_Hive优化
Hive优化要点:优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。
weixin_34393428
·
2020-09-14 23:40
hive实例讲解实现in和not in子句
in查询如果要查询当天登陆的注册用户,需要用in查询,
hivesql
如下:selectlogin.uidfromloginleftouterjoin
yaoyaoxingkong
·
2020-09-14 21:07
Hive
将hdfs文件导入hive表
hivesql
对hdfs的操作最终都会转化为mr任务,下面介绍如何将已经存在的hdfs文件“导入”hive表,很简单条件及要求:1)hdfs文件为经过lzo压缩的seqFile2)seqFile数据样例
luoshi0801
·
2020-09-14 00:03
hadoop相关
大数据
操作系统
java
HiveSQL
面试题
1.我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218u022017/1/236u012017/2/224要求使用SQL统计出每个用户的累积访问次数,如下表所示:用户id月份小计累积u012017-011111u0120
Nice_N
·
2020-09-13 21:09
Hive
系列
MySQL
系列
grouping sets操作符简化group by+union all操作
GROUPINGSETS就是一种将多个GROUPBY逻辑UNION写在一个
HIVESQL
语句中的便利写法。
Sql Boy
·
2020-09-13 20:30
SQL
Hive
hive数据表去重方法
解决思路:(1)groupby的方法首先新建与test表完全相同的新表test_pure,然后利用groupby在有相同值的若干字段上进行分组统计,正常情况下,
hivesql
的select是无法取到非groupby
zcc_0015
·
2020-09-13 14:06
数据挖掘
hive sql截取指定分隔符后的字符串
**
hivesql
截取指定分隔符后的字符串**1、字符串示例:aa/ba/dd/cf2、目的:截取最后一个分隔符‘/‘后的字符串’cf’3、需要的函数:reverse()反转函数,将字符串aa/ba/dd
今天菜里有肉
·
2020-09-12 21:08
数据库
sql
数据库
mysql
hivesql
语法经验
在写及测的过程中发现的,有一些可能需要进一步验证。1FAILED:NullPointerExceptionnull不能用视图作为leftouterjoin的右表2FAILED:UDFArgumentTypeExceptionOnlynumericorstringtypeargumentsareacceptedbutdecimalispassed.在cdhhive0.10中,avg的列不能是deci
shj1119
·
2020-09-12 07:31
hive相关
hive常见错误
a.namefromstualeftjoincoursebona.id=b.id错误:SemanticExceptionColumnxxFoundinmorethanOneTables/Subqueries问题:
hivesql
大王go巡山
·
2020-09-12 06:11
hive学习
hql语句
简介hql为
hivesql
的缩写。hive本身为java语言开发而成,所以hive上面如果有什么特殊需求,完全可以是用hiveudf订制自己的需求(后续会介绍udf的开发方法)。
Joseph-Growth
·
2020-09-12 04:48
大数据之hive
Spark SQL应用解析
Hive是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
dawandi6620
·
2020-09-11 14:47
每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈
每日产生万亿的消息数据入库,需要针对几十亿IMEI手机设备去重,并关联数千亿的历史全表,进行曝光、点击、PV、UV、日活、新增、留存等统计指标分析,当前所有业务的ETL清洗、统计计算、用户画像都全部依赖离线m/r和
HiveSQL
糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖
·
2020-09-11 14:56
Spark on hive 与 Hive on spark 的区别
HvieonSpark:(数据源是hive本身)Hvie将自己的MapReduce计算引擎替换为Spark,当我们执行
HiveSQL
(HQL)时
适合不合适
·
2020-09-11 03:49
大数据相关技术总结
hive,spark sql优化
一.
hivesql
优化1.发生数据倾斜,如何解决?什么是数据倾斜?
ronaldo_liu2018
·
2020-09-10 23:29
hive
sql
spark
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他