day55-hive实战:

一下内容来源于:

一、Hive本质是什么?

1、hive是分布式数据仓库,同时又是数据查询引擎,所以SparkSql 取代只是Hive查询引擎,实际企业生产环境下Hive+sparksql 是最为经典的组合。

2、Hive本身就是一简单单机查询,主要负责

 2.1吧HQL翻译成mapper-reducer-mapper的代码并可能产生很多mapreduce的job

2.2把生成的mapreduce代码及相关资源打包成为jar 并发布到Hadoop集群 中且运行(这一切都是自动的)

3、

4、Mysql安装配置

5、Hive 表有2种基本类型:内部表(这种表数据属于Hive本身,如果原来的数据在hdfs的其他地方,此时数据会通过hdfs移动到Hive数据仓库所在目录,如果删除hive中该表的话,数据和元数据均会被删掉)和外部表(如果通过该hive去删除的话,删除的只是元数据,数据本身并没有删除)


DT大数据梦工厂联系方式:

新浪微博:www.weibo.com/ilovepains/
微信公众号:DT_Spark

博客:http://.blog.sina.com.cn/ilovepains


你可能感兴趣的:(day55-hive实战:)