第二十五章:数据治理之数据生命周期:数据生命周期的七个阶段

数据生命周期管理,也是常常听到的词,但是当说起数据生命周期管理的时候,数据都分哪些生命周期?我们又在管理数据生命周期的什么?

本章就说一下个人的看法。

1、数据生命周期的几个阶段

数据生命周期通常分为以下几个阶段,具体划分可能因不同的框架或标准而略有差异,但核心阶段如下:

数据创建/收集

数据通过生成、录入或从外部来源采集而来。此阶段需确保数据的准确性和完整性。

数据存储

将数据存储在数据库、数据仓库或其他存储介质中,需考虑安全性、可访问性和存储成本。

数据处理

对数据进行清洗、转换、整合或分析,以提升数据质量并使其适用于后续使用。

数据使用

数据被应用于业务决策、报告、可视化或机器学习模型等实际场景。

数据共享

在组织内部或外部共享数据,需遵守合规性要求(如GDPR)和权限管理。

数据归档

将不再频繁使用的数据迁移至低成本存储(如冷存储),但仍保留以备未来查询或合规需求。

数据销毁

通过物理或逻辑手段安全删除数据,确保其无法恢复,通常需符合法规要求。

当然,也会有其他的划分方法。

比如在《GB/T37988-2019信息安全技术数据安全能力成熟度模型》国家标准,数据的生命周期分为采集、传输、存储、处理、交换和销毁六个阶段。

所以,具体分多少阶段,也是按照自己理解进行划分,没有一个统一标准。

2、当我们说数据生命周期管理的时候,我们在说什么

数据生命周期,涉及到一个完整的过程,当我们说到生命周期管理,到底是管什么那?

这个并没有一个定论。个人认为当提到数据生命周期管理的时候,其实是管理的较为后期的几个阶段,具体来说,就是管理数据归档、数据销毁。两个阶段的内容。

数据的存储成本是很高的。单纯的加工、使用数据,而不考虑数据的存储成本是一个很高的成本。

而且数据的价值也是有时间性的,随着时间,历史数据的数据价值会变低,如何处理价值变低的数据那?

就是进行数据归档、数据销毁。

数据归档:

归档的主要原因,是优化存储和性能。

或者更加通俗点说,个人觉得需要通过归档来优化数据存储类型,从而降低成本。

也就是常听到的冷热数据存储。

这个过程中,第一件事就是如何识别数据的冷热。

在大数据中存储大量的数据,哪些数据是常常被使用的,是热数据;哪些数据是不常被使用的,是冷数据。是不是单纯的使用就能够标记出来数据的冷热。这个数据的冷热,也会在数据目录上体现出来。

识别出来冷热之后,如何将被识别的冷数据进行迁移,什么时候进行迁移,这是第二件事情。

迁移之后的数据,只是冷数据,仍然是有可能进行数据查询的,那么迁移之后的数据如何进行元数据的管理,如何和热数据进行关联查询,这是迁移之后冷数据的使用,这是第三个问题。

最后一个问题,就是如何将迁移的冷数据进行审计,是不是合理,对这些冷数据的迁移进行审核。

对于数据归档,这件事情,个人并没有特别好的实践,说实话也并不看好。

数据销毁:

销毁的主要原因,是基于安全与合规。

基于各种合规性的要求,有些数据需要定期销毁,有效需要有一定的保存期限。

甚至,更多的是需要保存一定的时间,才能够进行销毁。比如车联数据的保存期限要求等等。

3、总结

经常能够听到,数据生命周期管理,但是一直对具体管理什么并没有一个明确的框定范围,本章算是个人的一些学习总结。

相对简单,随着体会的深入也会再不断完善,欢迎讨论。

你可能感兴趣的:(大数据,数据仓库,数据库架构)