数据仓库是大批量数据的存储系统,在如今PB级数据量的大数据时代,传统数据库由于数据量的限制,无法存储如此庞大的数据量,因此对于需求海量数据的机构大都会将数据存储在数据仓库中,用以取数和分析。
数据仓库一般会从业务源系统取数,存储在ODS层。这一层存储的都是颗粒度最细的明细数据,由于直接从源系统取数,所以这一层的数据大多是缺乏加工处理的脏数据。
再上层是主题数据层,一般来说数仓的主题层可以分为十大主题,包含客户、机构、产品等。通过对于明细数据的加工,将明细数据划分到各个主题下。
再上层是指标层,里面是对于主体数据再次加工,形成对于业务有分析作用的指标。有些情况下,这一层也是集市层,不同业务线的指标存储在对应的数据集市中。在这一层,也会形成一张大宽表,供用户取数。
Hive, GaussDB等
数据仓库是做分析的(Analytic),数据库是事务性的(Transaction)
对于银行或其他业务系统要求业务时效性的,一般使用事务型的数据库,然后再批处理到数据仓库进行分析。
流批一体:实时同步和批处理相结合。
湖仓一体化:数据仓库和数据湖相结合,放在同一个文件存储系统里(如HDFS)。
各家银行的指标体系根据其自身业务体系和现有数据会存在差异。建设指标体系一般需要自上而下和自下而上相结合。
所谓自上而下,就是先确定总体框架,把指标分类体系做好,横向分类,纵向分层。
自下而上,根据现有的数据向自上而下建立的指标分类体系进行填充,建立对应的指标。
全行指标建设需要多部门协同,而对于大行来说,各业务线也会建立满足自身业务的指标体系,来辅助上层决策。
指标体系的梳理最终要形成指标模型,指标模型包含了指标分类、指标名称、指标含义、单位、频度、来源系统、负责部门等等。
以某银行为例,全行指标分类大体可分为风险指标、经营指标、客户指标、营销指标、运营管理类指标。
再细分可分为产品业务指标、产品运营、对公营销、客户分析、客户拓展、渠道业务、市场风险、信用风险、综合业务、其他指标。
人资指标体系-人资指标体系可划分为选、用、育、留、生产力、投资、能力、风险等主题。
企金指标体系-企金条线的指标体系可划分为贷款、存款、财富、代发、供应链金融、跨境融资、国际结算、企业网银、投资银行、普惠金融等领域,一级分类可划分为客户管理、营销管理、产品定价、风险管理、财务管理、经营绩效、监管报送和其他;
数据中台的定位在于整合、存储、管理、分发和应用各种数据资源,促进数据驱动决策、业务创新和数字化转型。数据中台通过强大的数据存储、清晰、计算能力,将多个数据源的数据整合到一个统一的数据底座,为上层各业务系统提供底层的数据基座,为各业务团队提供相应数据应用服务,包括指标体系搭建、风险应用、投资策略等。
数据中台整合来自多渠道数据,通过分析客户的历史交互、购买行为和浏览记录,构建全面的客户画像,利用不同产品或服务之间的关联性,识别潜在交叉销售机会,对客户进行个性化产品和服务推荐,吸引客户采购更多产品或服务。
数据中台可实时监测大量交易及操作数据,构建风险评估模型,识别不同类型的风险。基于数据挖掘和风险模型,数据中台识别可能的欺诈行为,如信用卡欺诈、身份盗用和网络攻击等。
数据中台整合来自不同渠道和数据源的信息,提供清洗和修复不准确数据的能力,通过分析客户的历史行为,生成客户分析报告,从客户个人信息、偏好、购买历史、互动行为等维度评估客户的综合概况,预测客户的需求和行为,以制定更有针对性的营销和服务策略。
基于数仓和集市的建设,为上层应用提供了底层的数据支撑。
银行对于日常各种口径、业务条线、场景下的指标需要快速浏览、查询,