关键字: [yt, Lake Formation, Data Mesh Architecture, Data Lake Formation, Data Product Ownership, Federated Data Governance, Domain-Oriented Decentralization]
本文字数: 1900, 阅读完需: 10 分钟
在这场演讲中,演讲者们探讨了如何利用Amazon云科技的服务,如LAKE FORMATION、S3、ATHENA和SAGEMAKER,构建数据网格架构。他们具体阐释了数据网格架构如何实现分布式数据所有权和架构、自助式数据基础设施以及联合计算治理。演讲重点关注了Amazon云科技LAKE FORMATION如何通过提供集中式数据目录、细粒度访问控制、跨域数据共享以及用于构建和共享数据产品的通用技术堆栈,从而支持构建数据网格架构。
以下是小编为您整理的本次演讲的精华,共1600字,阅读时间大约是8分钟。
在不断发展的数据管理和分析领域,组织长期以来一直在努力应对传统数据湖架构带来的挑战。亚马逊云科技的一位产品经理Roy Hassan深入探讨了这些复杂性,阐明了数据生产者和消费者之间经常出现的不协调问题。传统上,中央IT团队或数据平台团队负责数据的摄取、转换,并为各个业务部门或部门提供数据访问权限。然而,这种方式可能会导致消费者缺乏自主权,因为他们依赖于中央团队来满足特定数据需求,从而减缓了这些业务线或团队的创新步伐。此外,中央团队可能缺乏对数据细微差别的全面理解,导致缺乏数据所有权和问责制。
这种困境经常导致重复工作,因为消费者不得不获取自己的数据仓库或数据准备工具,以获得更多对数据的控制权。因此,组织面临着雇佣多名数据工程专业人员、购买冗余工具以及在各种环境中复制数据的艰巨任务。此外,适应多区域或集团组织结构变得越来越具有挑战性,因为这些孤岛往往抗拒在单一框架下融合,渴望自主权,同时又寻求协作和知识共享的机会。
在这些挑战中,数据网格模式作为一种范式转变而出现,由Thoughtworks的Zhamak Dehghani于2019年中期提出。这种架构方法建立在三个核心原则之上:分布式领域驱动架构、自助服务平台设计和产品思维。数据网格范式旨在通过将数据所有权和架构分散到组织内的各个业务领域或单位,来解决传统数据湖的缺陷。
支撑数据网格架构的四个关键支柱是:
Roy Hassan承认,数据网格模式并非一劳永逸的解决方案,它主要针对具有多个需要分布式控制的业务线的大型组织结构。然而,对于没有这种复杂性的较小组织,完全采用数据网格模式可能并非必需。尽管如此,分布式架构和产品思维等核心原则无论组织规模如何都是适用的,允许组织在发展和演进过程中逐步融入这些概念。
为了补充数据网格模式,亚马逊云科技(亚马逊云科技)引入了”湖屋”方法,将可扩展的数据湖与专门构建的数据服务和自动化数据移动相结合,全部通过中央治理进行管理。这种方法侧重于构建集中、精选和安全的原始数据和准备数据存储库,使组织能够打破数据孤岛,结合不同类型的分析和机器学习,并推动更好的业务决策。
湖泊房屋方法利用亚马逊 S3 作为可扩展的数据湖,各种亚马逊云科技服务根据需求消费和处理数据。自动化在将数据从湖泊迁移至消费者应用程序和管道中扮演着关键角色,这得益于诸如亚马逊云科技 Glue 等服务的支持。中央治理是这种方法的一个核心方面,使组织能够理解、编目、分类和注释其数据,同时还通过细粒度访问控制来保护数据。
亚马逊云科技 Lake Formation 成为一个强大的工具,简化了构建数据湖、设置和存储数据、更新目录以及在亚马逊 S3 中维护物理数据的过程。它还简化了权限和安全性的管理,利用基于标签的访问控制和细粒度的表、列、行和单元级别的安全控制。此外,Lake Formation 增强了数据的可发现性,并促进了整个组织内的数据共享。
亚马逊云科技的一位数据架构师 Nivas Shankar 登台,深入探讨了在亚马逊云科技上使用湖泊房屋方法构建数据网格的技术方面。他强调了数据域、数据产品、集中安全控制以及数据产品对消费者的可发现性等核心概念。
数据域代表作为数据生产者的组织单位,负责从各种来源引入数据、丰富和转换数据、管理数据生命周期,并在联合数据治理账户中注册元数据。该账户用作整个组织中目录和管理数据产品的中央存储库。
另一方面,数据产品是生产者与组织内部消费者共享的数据集。通过在联合数据治理账户中注册其数据产品,生产者确保这些数据集对授权的消费者是可发现和可访问的。Nivas 解释说,每个数据域所有者负责维护自己的数据集、目录和元数据属性,如数据库、表和列定义。
集中式安全控制在数据网格架构中扮演着关键角色,使数据域所有者能够授予对特定数据产品的访问权限,同时保持一致且可审计的访问控制机制。Lake Formation 通过提供统一的平台来管理权限和执行整个组织的安全策略,简化了这一过程。联合数据治理账户作为中央枢纽,用于了解哪些数据域已注册其数据产品、消费者是谁以及授予了何种访问权限。
消费者可以通过联合数据治理账户发现和请求访问数据产品,利用该中央存储库中维护的可发现性功能和元数据目录。一旦获得访问权限,消费者就可以无缝访问和分析数据产品,无需数据重复或冗余基础设施。Lake Formation 提供了凭证的自动分发机制,确保消费者仅在会话期间访问被授权访问的特定数据产品,从而增强了安全性和审计能力。
Nivas 提出了实现数据网格的两种架构模式:点对点模型和集中模型。在点对点模型中,生产者通过在 Lake Formation 中创建数据库和表资源链接,直接与消费者共享数据。然后,消费者可以向他们的角色授予选择性权限,使他们能够查询和访问共享的数据产品。
另一方面,集中模型涉及在联合数据治理账户中注册数据集和元数据。生产者将他们的表共享回自己的账户,保持对转换和丰富过程的控制。然后,消费者可以通过联合数据治理账户请求访问特定的数据产品,该账户将授予他们访问相关目录的共享访问权限。随着更多数据域和消费者群体的加入,这种模型可以无缝扩展,利用联合数据治理账户和 Lake Formation 提供的可发现性和访问控制机制。
尼瓦斯还强调了 LAKE FORMATION 的先进安全功能,包括支持行级和单元格级别的安全性,以及基于属性的访问控制。这些功能可以实现对数据访问的细粒度控制,确保消费者只能访问他们被授权访问的特定数据段,这基于预定义的规则和策略。例如,在涉及数据虚拟化的用例中,分析师可能只有权查看特定区域或县的数据,因此需要根据这些细粒度访问控制来过滤和呈现结果。
在整个演示过程中,Roy 和尼瓦斯强调了遵循数据网格模式原则的重要性,如分布式领域驱动架构、自助服务平台设计和产品思维。通过采用这些原则,并利用湖屋方法和亚马逊云科技服务(如 LAKE FORMATION),组织可以释放数据的潜力,促进自主权和问责制,并通过更好地利用数据来加速创新。
总之,数据网格架构模式与湖屋方法和亚马逊云科技 LAKE FORMATION 相结合,为组织提供了一个全面的解决方案,帮助它们克服传统数据湖架构的挑战。通过分散数据所有权、促进自助分析和实施联合计算治理,组织可以实现数据生产者和消费者之间的更好协调、提高数据可靠性和问责制,并通过有效利用数据推动创新。尼瓦斯·尚卡尔提供的技术实施细节进一步阐明了在亚马逊云科技上构建数据网格的实际方面,确保了一个安全、可扩展和受控的数据平台,使组织能够释放其数据资产的全部潜力。
在这个富有洞见的演讲中,Roy Hassan和Nivas Shankar深入探讨了利用亚马逊云科技LAKE FORMATION和湖屋方法构建数据网格架构的概念。他们首先强调了组织在使用传统数据湖架构时所面临的挑战,例如数据生产者和消费者之间的不一致性、缺乏消费者自主权以及难以适应多区域或集团结构。
由Zhamak Dehghani引入的数据网格模式旨在解决这些挑战,促进分布式领域驱动架构、自助服务平台设计和产品思维。数据网格的关键支柱包括面向领域的分散数据所有权、将数据视为具有真正数据所有者的产品、自助数据基础设施平台以及联合计算治理。
Roy和Nivas随后解释了如何将湖屋方法(涉及构建可扩展的数据湖并在其之上利用专门构建的数据服务)与数据网格模式相结合。亚马逊云科技LAKE FORMATION简化了数据湖的创建,实现了细粒度的安全控制,并促进了整个组织内的数据可发现性和共享。
他们概述了数据领域所有者在构建数据产品方面的职责,包括引入数据、丰富和转换数据,以及在联合数据治理账户中注册数据以实现可发现性。然后,消费者可以通过联合治理账户发现和请求访问这些数据产品,从而实现安全和受控的访问,而无需复制数据。
该演讲涵盖了实施数据网格的两种架构模式:点对点共享和通过中央治理账户共享。两种方法都利用了LAKE FORMATION的目录、安全和跨域共享数据的能力。
总之,数据网格模式与湖屋方法和亚马逊云科技LAKE FORMATION相结合,使组织能够实现分布式数据所有权、将数据视为产品、促进协作,并在保持安全性、治理和运营效率的同时加快创新步伐。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。