3.用户画像:方法论与工程化解决方案 --- 标签数据存储

第3章 标签数据存储
3.1 Hive存储
	3.1.1 Hive数据仓库
		建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的sql语言可以查询存储在HDFS中的
	数据。

		数据仓库:一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合。
			1.面向主题
				业务数据库中的数据是针对事务处理,各个业务系统之间是互相分离的,而数据仓库之间的数据是按照一定主题进行组织的。

			2.集成
				数据仓库中存储的数据是从业务数据库中提取出来的,但并不是对原有数据的简单复制,而是经过了抽取、清洗、转换(ETL)等工作。业务数据库记录的是
			每一项业务处理的流水账。这些数据并不适合进行分析处理,进入数据仓库之前需要经过一系列计算,同时抛弃一些无关分析处理的数据。

			3.非易失
				业务数据库中一般只存储短期数据,因此其数据是不稳定的,记录的是系统中数据变化的瞬态。数据仓库中的数据大多表示过去某一时刻的数据,主要用于
			查询、分析,不像业务系统中的数据库一样经常修改,一般数据仓库构建完成后主要用于访问、不进行修改和删除。

			4.随时间变化
				数据仓库关注的是历史数据,按时间顺序定期从业务库和日志库里面载入新的数据进行追加,带有时间属性。

		在数据仓库建模的过程中,主要涉及 事实表 和 维度表 的建模开发。
			1.事实表
				主要围绕业务过程设计,就应用场景来看主要包括 事务事实表,周期快照表和累计快照事实表。
					a) 事务事实表
						用于描述业务过程,按业务过程的单一性或多业务过程可进一步分为单事务事实表和多事务事实表。其中单事务事实表分别记录每个业务过程,如下单
					业务记入下单事实表,支付业务记入支付事实表。多事务事实表在同一个表中包含不同业务过程&

你可能感兴趣的:(大数据,数据仓库,数据库,big,data)