关键字: [yt, Amazon Kinesis Data Analytics, Streaming Data Analytics, Amazon Web Services Streaming Services, Kinesis Data Streams, Kinesis Data Firehose, Kinesis Data Analytics, Amazon Managed Streaming Kafka, Real-Time Data Processing, Data Ingestion Pipelines, Streaming Architecture Patterns, Data Transformation Pipelines]
本文字数: 500, 阅读完需: 2 分钟
在这场演讲中,演讲者探讨了如何利用亚马逊云科技的流媒体服务(如KINESIS和AMAZON MANAGED STREAMING FOR APACHE KAFKA (MSK))构建现代化的流数据分析架构。具体而言,他阐释了KINESIS DATA STREAMS、KINESIS DATA FIREHOSE、KINESIS DATA ANALYTICS和MSK的关键特性和使用案例。演讲介绍了这些服务如何实现实时数据采集、处理和分析,以及与各种亚马逊云科技数据存储和分析工具的集成,从而带来低延迟、可扩展性和易用性等优势。
以下是小编为您整理的本次演讲的精华,共200字,阅读时间大约是1分钟。
根据视频标题”亚马逊云科技-构建现代流GenAI数据分析架构”和视频字幕内容,本文将以叙事风格详细总结该演讲的核心内容。
该演讲主要介绍了如何在亚马逊云科技上利用流式数据分析服务(如Kinesis家族和Amazon托管的Apache Kafka服务)构建现代流式数据分析架构。
演讲者首先解释了流式分析的概念,即连续处理和分析数据记录,而非批量处理。它通常用于处理来自物联网设备、传感器、日志事件、事件触发器等源持续生成的小规模数据流。典型的生命周期包括摄取流式数据、可选的短期或长期存储(用于回放处理、窗口化等)、流处理阶段(通常涉及转换)以及将数据传送到可视化仪表板或实时搜索引擎等数据处理端点。
接下来,演讲者介绍了Amazon Kinesis Data Streams,这是一项无服务器服务,用于处理和分析流式数据,平均延迟低于70毫秒。它支持与Amazon Lambda、Amazon EMR等多种亚马逊云科技服务的内置集成,用于构建流式管道。它支持24小时到365天的数据保留能力,以满足回放需求。分片(Shards)用于定义Kinesis Data Streams的容量,最近添加了一种按需模式,可自动根据数据流量变化扩展容量。
演讲者还介绍了Kinesis Data Firehose,这是一种ETL服务,可捕获、转换和将流式数据传送到数据湖、亚马逊云科技服务(如S3、Redshift)和数据存储(如Splunk、DataDog、SumoLogic、New Relic)。它现在还支持动态分区,可使用动态或静态定义的数据键持续对传输中的数据进行分组,并将数据传送到单个Amazon S3前缀。这可以减少获取洞见的时间,降低成本,并简化使用Apache Flink处理流式数据的架构。
Amazon Kinesis Data Analytics是一种完全托管的无服务器Apache Flink环境,可执行具有亚秒级延迟的有状态处理。它与多种亚马逊云科技服务集成,支持自定义连接器,并提供了一个名为KDA Studio的笔记本界面,允许用户以交互方式处理流式数据。
与Kinesis Data Analytics for Apache Flink类似,Amazon Managed Streaming for Apache Kafka (MSK)是一种完全托管的服务,用于运行高可用性的事件驱动Apache Kafka应用程序。Amazon MSK操作、维护和扩展Apache Kafka集群,提供企业级安全功能,并支持Kafka Connect和多种内置亚马逊云科技集成。
演讲者接着回顾了一些由Amazon Kinesis和Amazon MSK支持的常见流式架构模式。
最常见的模式是访问日志流式应用程序,通常用于使用Amazon Kinesis Data Analytics和Amazon OpenSearch Service进行异常检测。在这种架构中,来自多个源(如Amazon CloudFront访问日志或VPC Flow日志、API日志)的日志被推送到数据湖,然后发布S3 put事件到Amazon SQS。Amazon Lambda从SQS轮询这些事件,并调用函数将数据移动到多个目标,如Amazon S3、Amazon Redshift、Amazon OpenSearch或Kinesis Data Analytics服务、Kinesis Data Firehose。通过这种架构,您可以通过创建近实时OpenSearch仪表板并使用Amazon Lambda和Amazon SNS进行流式分析处理和自动通知来构建低延迟的现代数据流式应用程序。您还可以将访问日志数据存储在Amazon S3中进行归档,并根据用例需求将访问日志摘要加载到Amazon Redshift。
另一种架构模式或用例是实时报告,其中您可以从来自不同源系统(如社交媒体应用程序)的输入数据中获取洞见,生成近实时仪表板。在这种架构中,您可以使用Amazon MSK Lambda和Kinesis Data Firehose从源系统流式传输近实时数据到Amazon S3。然后,您可以使用Amazon Glue进行数据处理,并使用Amazon Glue开发端点(如Amazon SageMaker笔记本实例)将转换后的数据加载到Amazon Redshift。一旦数据进入Amazon Redshift,您就可以使用Amazon QuickSight创建面向客户的业务报告。
另一个用例是近实时搜索,您可以通过使用Amazon OpenSearch Service设置近实时搜索来从Amazon DynamoDB获取洞见。在这种设计中,DynamoDB表用作主数据存储,Amazon OpenSearch Service集群用于通过使用DynamoDB Streams和Kinesis Data Streams对表进行索引来提供各种搜索。主表上的任何更新、删除或新项目都会被捕获并使用Amazon Lambda进行处理。Lambda会向OpenSearch Service发出适当的调用,以实现近实时索引数据。您还可以使用流式功能通过Kinesis Data Firehose传递系统将更改发送到OpenSearch Service或Amazon Redshift。在将数据加载到OpenSearch Service或Amazon Redshift之前,您可能需要对数据执行转换。您可以使用Amazon Lambda函数执行此任务。
另一种使用案例是利用机器学习进行近实时监控流式数据,以识别并对偏离预测的情况采取行动。在这种架构模式中,数据从多个源通过KINESIS DATA STREAMS收集,然后由KINESIS DATA FIREHOSE持久化存储到AMAZON S3。使用AMAZON ATHENA进行初始数据准备和聚合,并存储在AMAZON S3中。AMAZON SAGEMAKER用于训练预测模型,创建行为预测。当新数据到达时,KINESIS DATA ANALYTICS会以近实时方式对其进行聚合和准备。结果与之前生成的预测进行比较。AMAZON CLOUDWATCH用于将预测值和实际值存储为指标。当实际值偏离时,CLOUDWATCH警报会在Amazon Web Services SYSTEMS MANAGER INCIDENT MANAGER中触发事件。
演讲者总结了在选择特定流式服务或构建解决方案时需要考虑的一些关键因素。
在使用模式方面,KINESIS DATA STREAMS用于收集和存储数据,KINESIS DATA FIREHOSE主要用于将数据流加载和转换到亚马逊云科技数据存储和多个SAAS端点,而KINESIS DATA ANALYTICS则用于分析流式数据。
在吞吐量方面,KINESIS STREAMS通过分片扩展,支持高达1MB的有效负载。如前所述,它有一种预配置模式和一种按需模式来扩展分片容量。KINESIS FIREHOSE会自动扩展以匹配数据的吞吐量。单个KINESIS DATA ANALYTICS FOR SQL应用程序可以处理的最大流式吞吐量约为100MB/秒。
在延迟方面,例如KINESIS STREAMS允许生产者和消费者之间的数据传递延迟低于70毫秒。
最后,在易用性和成本方面,亚马逊云科技上的所有流式服务(包括AMAZON MSK无服务器版本)都是托管和无服务器的,这提高了易用性,因为它们抽象了基础设施管理开销。当然,还需要根据特定用例考虑每项服务的定价模型。
最后,演讲者提供了一些额外资源,供用户深入了解这些服务和架构模式,包括研讨会、博客等,为构建流式应用程序和处理流式数据提供了规范性指导。
总之,这个演讲全面介绍了如何在亚马逊云科技上利用KINESIS家族和AMAZON托管的APACHE KAFKA服务构建现代流式数据分析架构,涵盖了关键概念、服务功能、常见架构模式和选择考虑因素。
在不断发展的数据分析领域中,亚马逊云科技 (亚马逊云科技) 为组织构建现代化的实时数据处理架构提供了一套强大的流媒体服务。本次演讲深入探讨了这些服务的复杂性,阐明了它们的功能和潜在应用。
讨论的核心围绕着 Kinesis 系列服务,包括 Kinesis Data Streams、Kinesis Data Firehose 和 Kinesis Data Analytics。这些服务旨在以亚秒级延迟摄取、处理和分析流数据,使组织能够从实时数据源(如物联网设备、传感器和日志事件)中获取洞见。此外,还介绍了 Amazon Managed Streaming for Apache Kafka (MSK),这是一项完全托管的服务,用于运行高可用性的、事件驱动的 Apache Kafka 应用程序。
演讲者展示了几种常见的流媒体架构模式,说明了如何利用这些服务构建强大的解决方案。从用于异常检测的访问日志流媒体应用程序,到实时报告和近实时搜索,演讲展示了 亚马逊云科技 流媒体服务的多功能性。此外,它还探讨了在监控流数据时使用机器学习来识别与预测的近实时偏差。
在整个演示过程中,强调了使用模式、吞吐量、延迟、易用性和成本等关键考虑因素,为有意采用这些技术的组织提供了宝贵的见解。最后,演讲者提供了其他资源,包括研讨会和博客,供有兴趣获得实践经验和进一步指导的人员构建使用 亚马逊云科技 的流媒体应用程序。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。