数仓架构对比

快手数仓

  • 架构


    image.png
  • 规模


    image.png

快手目前集群规模有 1500 台左右,作业数量大约是 500 左右,日处理条目数总共有 1.7 万亿,峰值处理条目数大约是 3.7 千万。集群部署都是 On Yarn 模式,分为离线集群和实时集群两类集群,其中离线集群混合部署,资源通过构建不同级别队列进行隔离,实时集群是 Flink 专用集群,针对隔离性、稳定性要求极高的业务部署。

  • 应用


    image.png
日志实时Join

美团数仓

  • 架构


    image.png

    image.png
  • 规模
    服务器上千台,每秒处理埋点日志量1.5亿条,binlog日志每秒千万级别

易企秀数仓

  • 架构


    image.png
  • 规模

目前集群规模50台,线上资源多集中与离线数据分析,80%处理离线业务,10%资源用来处理数据采集和清洗,剩下的10%资源用于实时任务处理。节假日期间日处理流量10亿+,峰值数据5w/s;其中一些偏底层的计算任务,如数据同步和数据清洗相关任务会放到单独队列运行,以确保数据稳定。

你可能感兴趣的:(数仓架构对比)