数据仓库——如何量化评价一个数据仓库的好坏?

       为了回答这个问题,小编特意邀请了我司的数仓专家 Frank Li。他在加入 Kyligence 之前,曾在SAP 数据仓库领域工作十多年,在两家美资世界五百强企业带领中国数仓团队实施维护了多个全球化数仓项目,包括全新实施、维护、系统升级和迁移等。Kyligence 作为数仓中的核心组件,公司也参与了多个大型机构中数仓升级项目。就这些项目经验, 小编总结了一些心得来帮助企业考量数据仓库的优劣。首先,数据仓库并不是一个新概念,在2000年前后,各大厂商就已经推出了各种数据仓库。这些数据仓库大都基于关系型数据库,经过多年发展均已稳定成熟,在大量企业发挥着自己的作用。近年来,随着大数据技术的广泛使用,基于 Hadoop 的数据仓库技术也蓬勃发展。相比传统数仓也有颇多特色。在小编看来,给数仓打分可以从以下几个层面考量。

一、基本功能

  1. 能否支持复杂的模型和复杂的ETL逻辑。
  2. 数据管理功能,例如原始数据增、改、删之后,是否可以追溯该条数据的来龙去脉。不少厂商提供了 Time Travel 功能来做数据回滚。
  3. 数据模型、报表、代码等管理功能。使用多年后,数据仓库中的表、模型可能数以万计。需要可靠地管理好表、数据、报表和ETL代码等。
  4. 提供统一的接口给业务用户。例如销售数据集中“销售成本”的定义可能极为复杂,而业务用户需要能够直接使用定义好的表和字段。
  5. 权限功能,例如在报表

你可能感兴趣的:(【大数据面试宝典】,数据仓库,数据库,大数据,分布式)