数据仓库技术及应用(Hive 产生背景与架构设计,存储模型与数据类型)

1.Hive产生背景

传统Hadoop架构存在的一些问题:

  • MapReduce编程必须掌握Java,门槛较高
  • 传统数据库开发、DBA、运维人员学习门槛高
  • HDFS上没有Schema的概念,仅仅是一个纯文本文件

Hive的产生:

  • 为了让用户从一个现有数据基础架构转移到Hadoop上
  • 现有数据基础架构大多基于关系型数据库和SQL查询
  • Facebook诞生了Hive

2. Hive是什么

官网:https://hive.apache.org/

它是基于Hadoop的数据仓库工具

  • 方便的将结构化数据文件映射为一张数据库表
  • 提供SQL查询功能,SQL语句底层转换为MR作业执行
  • Hive提供了一系列功能可以方便进行数据ETL

Hive目前是Apache基金会的顶级项目
Hive作为数据仓库工具,非常适合数据仓库联机分析处理(OLAP)

3.Hive在Hadoop生态系统中的位置

数据仓库技术及应用(Hive 产生背景与架构设计,存储模型与数据类型)_第1张图片

4.Hive与传统关系型数据库的异同

HIVE RDBMS
查询语言 HQL SQL
数据存储 HDFS 块设备、本地文件系统
执行 MapReduce Executor
执行延迟
处理数据规模
事务 0.14版本后加入 支持
索引

0.8版本后加入

<

你可能感兴趣的:(数据仓库,笔记,hive)