数据中台之旅(五)数据开发介绍

功能介绍

数据开发 包含: 作业开发(sqoop\hive\impala\python\shell)、实时开发(flink)、调度管理(工作流\定时调度\DAG查询)、日志管理(定时调度日志\作业运行日志)

建设思路

作业开发: 数仓开发使用频率最高的一个功能。通过web化的开发方式大大提升开发效率,降低技术门槛。以前在平安使用的是shell、sql脚本,自己写整套的指令。我希望的是,开发人员只要关注业务逻辑sql编写就好了。不要管底层技术怎么运行的(当然爱学习的小伙伴还是关注底层的好,不然真的容易被淘汰)。目前平台拥有的功能是使用频率高的,后续要开发支持关系型数仓的,毕竟不是每个公司都有那么大的数据量。现在写sql的作业都已经实现sql血缘的拆解。
实时开发:类似的,实时开发目前我们底层基于flink,上层做的界面封装。可通过开发jar形式,flink sql形式来开发实时计算任务。当然实时开发有很多方案(apache doirs 实时数仓集群,可以了解下)
调度管理:首先调度会涉及到依赖,之后就是作业的定时运行。工作流就是用来配置依赖关系的。定时调度就是自由配置工作流运行时间(这里借鉴了oozie的一点设计思路)。目前平台支持开发好作业之后,直接配置上级依赖和下级运行作业,之后选择是否运行外部项目依赖这个工作流(这里达到了跨项目依赖的作用),之后配置定时(单作业开发时即可完成全部的操作)。DAG其实是查看所有任务依赖关系的,目前还没有做好。希望做成通过源头表(所有者)-》作业(所有者)-》结果表(所有者)-》应用(业务线、报表、所有者)
日志管理:分2类。第一类:定时调度日

你可能感兴趣的:(总结,数据平台)