数据湖第8页

Apache Flink 在实时金融数据湖的应用

摘要：本文由中原银行大数据平台研发工程师白学余分享，主要介绍实时金融数据湖在中原银行的应用。

Apache Flink·2023-11-05 17:51

数据仓库之面试

可简单说下理解与思路3.数据仓库、数据中台、数据湖的理解4.传统数仓的程

2a0eebe006e6·2023-11-04 09:56

Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库

这些都使得ApacheDoris成为报表分析、即席查询、统一数据仓库和数据湖查询加速等场景的理想工具。在ApacheDoris上，用户可以构建各种应用，如用户行为分析、AB测试平台

yue_stack·2023-11-04 05:32

[架构之路-250/创业之路-81]：目标系统 - 纵向分层 - 企业信息化的呈现形态：常见企业信息化软件系统 - 企业内的数据与数据库

数据库的基本概念1.7企业数据来源1.8企业数据架构二、常见的数据库类型2.1数据库分类2.1数据库类型2.2常见的数据库类型、应用场合和案例三、数据库、数据仓库和主题数据库比较3.1基本概念3.2比较3.3数据湖与数据仓库备注

文火冰糖的硅基工坊·2023-11-02 17:04

十万字图文详解mysql、redis、kafka、elasticsearch（ES）多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案，如何构建数据仓库、数据湖、数仓一体化？

高并发、高可用解决方案，十万字图文详解mysql、redis、kafka、elasticsearch（ES）多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案，如何构建数据仓库、数据湖

代码讲故事·2023-11-01 13:11

【大数据概述】Hadoop技术栈

与关系型数据库关系3.Hadoop3.1.概述3.2.Hadoop生态技术3.2.1.概述3.2.2.架构4.Spark4.1.概述4.1.1.统一的引擎5.数据存储及处理的发展5.1.数据仓库5.2.数仓+数据湖

vk-fengz·2023-10-28 21:17

新手向：如何考虑将数据库技术和大数据框架结合使用？

数据湖构建：随着各种数据源的增加，组织需要一个集中的存储解决方案。大数据

Joy T·2023-10-28 21:23

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

flink-savepoint介绍接下来我们从FlinkSQLClient构建一个mysqlcdc数据经kafka入hudi数据湖的例子。

BigDataToAI·2023-10-27 11:28

Hudi数据湖-基于Flink、Spark湖仓一体、实时入湖保姆级教学

目录Hudi源码编译Hudi扫盲基于Spark-shell集成Hudi基于Spark-Hive集成Hudi手动创建HIVE表基于SparkSQL集成Hudi自动创建HIVE表基于FlinkSQL集成Hudi基于FlinkSQL-HIVE集成Hudi手动创建HIVE表基于FlinkSQL集成Hudi-自动创建Hive表基于FlinkCDC采集MySQL写入Hudi基于FlinkCDC采集Postgr

笑一笑、·2023-10-27 01:04

Hudi的介绍与安装编译

Hudi的介绍安装Maven编译Hudi执行编译Hudi的介绍Hudi简介Hudi（HadoopUpsertsDeleteandIncremental）是下一代流数据湖平台。

open_test01·2023-10-27 01:31

数据流程data pipeline, 2022-08-16

(2022.08.16Tues)数据流程是一种将数据从不同的原始数据源收集和引入到数据存储(如数据湖、datawarehouse)并用于数据分析等工作的方法。

Mc杰夫·2023-10-26 22:05

软信天成：今天的企业比以往任何时候都更需要「数据编目」

在当今的组织中，数据是多样的，分布在许多不同的部门、应用系统、数据仓库和数据湖（一些在内部，其他在云中），因此，准确地知道您拥有哪些数据和它们在哪里是一个挑战。

软信数据研究院·2023-10-26 09:28

2023 年最佳开源软件

上榜的25个软件涵盖编程语言、运行时、应用程序框架、数据库、分析引擎、机器学习库、大型语言模型(LLM)、用于部署LLM的工具等领域ApacheHudi在构建开放式数据湖或湖仓一体时，许多行业都需要一个更可发展和可变化的平台

ejinxian·2023-10-26 07:15

2022年全新数据仓库面试总结大全

数据仓库一、数据仓库概述首先，我们先来看下数据库、数据集市、数据仓库以及数据湖的概念。1、什么是数据库？数据库（Database）是按照一定格式和数据结构在计算机保存数据的软件，属于物理层。

蜀州凯哥·2023-10-25 16:01

Apache Doris 极速数据湖分析深度解读

在最初的概念里，数据仓库被定义为「一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策」，而数据湖最初是为了解决数仓无法存储海量且异构的数据而构建的集中式存储系统。

SelectDB技术团队·2023-10-23 22:46

数据湖和数据仓库的建设，到底为了什么？由此产生的岗位区别在哪

数据湖这个大坑，是怎么挖的？数据在刚刚开始的时候，还是小体量，就好比创业公司，还不足够引起人们的注意。但是当数据体量上来了，就好像变成了独角兽。

大数据的那些事·2023-10-23 18:15

AWS的一些概念：S3、EC2、Lambda、CodeBuild

各种规模和行业的客户都可以使用AmazonS3存储和保护任意数量的数据，用于数据湖、网站、移动应用程序、备份和恢复、归档、企业应用程序、IoT设备和大数据分析。

忙碌且充实·2023-10-23 04:43

关于数据湖架构、战略和分析的8大错误认知

本文的目的是构建数据湖，并提供适应企业数据策略的背景信息。咨询公司和提供商提出的意见相互矛盾，因此，这些信息历来一直不透明，令人困惑。

公众号:肉眼品世界·2023-10-21 11:52

独家 | 关于数据湖架构、战略和分析的8大错误认知（附链接）

本文打破有关数据湖的8个错误认知，错误认知包括3方面，还提出了5个小技巧，以构建一个灵活的、可交付业务价值的数据湖。本文的目的是构建数据湖，并提供适应企业数据策略的背景信息。

「已注销」·2023-10-21 10:39

使用 ClickHouse 深入了解 Apache Parquet （一）

这种采纳使其成为更近期的数据湖格式的基础，例如ApacheIceberg。在这个博客系列中，我们探讨如何使用ClickHouse读写这种格式，然后更详细地

沃趣数据库管理平台·2023-10-20 17:01

大数据之力：从数据湖到数据智能的升级之路

文章目录什么是数据湖？什么是数据智能？

IT·陈寒·2023-10-20 12:35

基于Delta Lake的Upserts数据湖方案

DeltaLake是基于ApacheSpark的下一代数据湖存储引擎，支持Merge命令，可以高效的完成upsert或删除。1为什么需要Upserts?

AllenGd·2023-10-20 01:50

【转】数据库、数据湖、数据仓库、湖仓一体、智能湖仓，分别都是什么鬼？

这套架构，以数据湖为中心，把数据湖作为中央存储库，再围绕数据湖建立专用“数据服务环”，环上的服务包括了数仓、机器学习、大数据处理、日志分析，甚至RDS和NOSQL服务

万州客·2023-10-19 22:56

科杰科技：基于湖仓一体架构的Hudi技术实现

一湖仓一体架构的定义和特点湖仓一体架构是一种结合数据湖和数据仓库的数据管理架构。它的核心思想是将数据湖和数据仓库合并为一个整体，实现数据的统一管理和分析。

科杰科技·2023-10-19 17:34

基于flink 的LakeHouse 2.0湖仓一体架构

基于flink的LakeHouse2.0湖仓一体架构简介Lakehouse是一种结合了数据湖和数据仓库优势的新范式，解决了数据湖的局限性。

活在风浪里~·2023-10-19 17:03

湖仓一体架构的特性

湖仓一体架构是一种数据架构模式，具有以下特性：统一存储：湖仓一体架构将数据湖和数据仓库合并为一个整体，将结构化数据和非结构化数据存储在同一个存储系统中，如Hadoop分布式文件系统（HDFS）或云存储服务

abckingaa·2023-10-19 17:55

滴滴 OrangeFS 数据湖存储关键技术揭秘！

2015年，滴滴为解决小文件和图片的存储，成立GIFT小对象存储项目。伴随着业务不断成长，我们面临的挑战也越来越多，经历多次非结构化存储架构演进，具体如下图所示：随着公司不断发展，滴滴的业务有两个发展的趋势：云原生技术战略和新业务涌现，都给存储系统带来了新的挑战。在云原生战略中，业务的极致弹性是提高资源利用率降低成本的一个目标。保障极致弹性的基础是容器的轻量化，而要实现容器的轻量化就必须实现存算分

滴滴技术·2023-10-19 06:32

大数据数仓搭建-大数据用户画像推荐系统搭建

老姜的数据江湖·2023-10-18 21:10

AWS Boto3 S3对象上传与下载

各种规模和行业的客户都可以使用AmazonS3存储和保护任意数量的数据，用于数据湖、网站、移动应用程序、备份和恢复、归档、企业应用程序、IoT设备和大数据分析。

东子z·2023-10-18 17:21

从理论到实践，实时湖仓功能架构设计与落地实战

在上篇文章中，我们向大家解释了为什么实时湖仓是当前企业数字化转型过程中的解决之道，介绍了实时计算和数据湖结合的应用场景。（“数据驱动”时代，企业为什么需要实时湖仓？）

袋鼠云数栈·2023-10-18 13:51

回顾 | Apache Flink x Iceberg Meetup · 上海站精彩回顾 (附PPT下载)

本次Meetup，社区邀请了来自阿里巴巴、腾讯、Dell科技集团、汽车之家的4位技术专家分享了超多关于Flink&数据湖的内容，全方位解析数据湖生产应用难题。

Apache Flink·2023-10-18 11:46

BI工具-DataEase(2) 基础使用

先讲下工具栏,分别是仪表盘,数据集,数据源,模板市场等等.和大多数的BI工具一样,首先配置的就是数据源1.数据源:支持OLTP,OLAP,数仓/数据湖,我们这边还是使用的mysql新建mysql数据源,

大曲·蜗牛·2023-10-17 18:53

数据库、数据中台、数据仓库、数据湖区别

数据时代，各行业的企业都已经开始通过数据库来沉淀数据，但是真的论起数据库、数据仓库、数据中台，还是新出现的数据湖，它们的概念和区别，可能知道的人就比较少了，今天我们详细来比较了解一下。

那小子、真烦·2023-10-17 13:06

阿里云“玩转云上 StarRocks3.0 湖仓分析”，开启数据分析新范式

通过存算分离架构，帮助用户降低存储成本、提升计算弹性；通过数据湖

阿里云大数据AI技术·2023-10-16 12:27

数据湖和数据仓库的区别？

进行数据分析工作的时候会用到很多的工具，比如说数据湖和数据仓库，不过这两者之间的差异和区别，可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢？

RonnieZhang1989·2023-10-15 03:25

Flink CDC使用DataStream API方式同步数据到Iceberg数据湖

目录1.背景2.同步表情况3.程序4.结果说明1.背景虽然使用SQL的方式进行同步非常方便。但是该方式，每向一个Iceberg目标表导入数据，都会向集群提交一个Application，非常消耗集群的资源通过DataStreamAPI的方式，可以只检索Mysql的数据源一次，就可同步多个数据库的多个数据表。然后通过Flink的SideOutput将数据分成多个流。然后再将多个流分别导入到不同的Ice

Bulut0907·2023-10-14 01:45

apache atlas 案例_元数据治理 Apache Atlas

采用Hadoop必须考虑数据管理的实际情况，元数据与数据治理成为企业级数据湖的重要部分。该项

CelioHsu·2023-10-13 18:47

Dremio：新一代数据湖仓引擎

Dremio数据湖引擎1、什么是Dremio2、数据湖仓2.1、什么是数据湖仓2.2、数据湖仓的历史和演变2.3、开放数据对数据湖和湖仓的重要性2.4、数据湖仓的作用2.5、数据湖仓如何工作2.6、数据湖仓的元素

对许·2023-10-12 15:03

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

文章目录集成Spark开发Spark编程读写示例DeltaStreamer集成Flink环境准备sql-clent使用启动插入数据流式读取Bucket索引HudiCatalog集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和spark-sql相似，其他都是Spark编程的知识，下面以scala语言为示例，idea新建scala的maven项目p

IT小神·2023-10-12 15:56

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-上

文章目录概述定义发展历史特性使用场景编译安装编译环境编译Hudi关键概念TimeLine(时间轴)FileLayouts(文件布局)索引表类型查询类型概述定义ApacheHudi官网地址https://hudi.apache.org/ApacheHudi官网文档https://hudi.apache.org/docs/overviewApacheHudiGitHub源码地址https://gith

IT小神·2023-10-12 15:55

大数据之Hudi数据湖_版本兼容与Maven安装配置_解决Hudi与Hadoop3.0的兼容问题_编译hudi源码---大数据之Hudi数据湖工作笔记0002

然后我们来看一下,hudi我们这次安装的时候,各个组件的版本信息这个hudi对各个版本的支持还是很多的,需要在安装的时候查一下具体的可以这样查一下去看一下具体的hudi对spark的支持是多少,对flink的支持的版本是多少等等可以很容易查到然后hudi

脑瓜凉·2023-10-12 15:47

数据仓库与数据湖的联系与区别

一、数据仓库1，定义数据仓库是从广泛的运营和外部数据源中积累的组织数据的大型存储库。数据经过结构化、过滤并已针对特定目的进行处理。数据仓库会定期从各种内部应用程序和外部合作伙伴系统中提取处理过的数据，以进行高级查询和分析。2，数据仓库系统作用（1）提供加强的商业智能BI利用从各种数据源提供的数据，管理人员和高管们将不再需要凭着有限的数据或他们的直觉做出商业决策。此外,“数据仓库及相关商业智能BI可

晓之以理的喵~~·2023-10-11 22:03

数据仓库与数据湖的区别以及数据入湖方式

数据仓库与数据湖的区别1)从使用对象来看，数据仓库主要是给BI分析的数据分析师使用的，而数据湖是给AI处理的数据科学家使用，数据仓库也可以给AI使用，但是侧重点是BI.2)从数据处理的过程来看，数据仓库是

一米大六的八个·2023-10-11 22:21

余老师带你学习大数据框架全栈第十三章Hudi第一节核心技术

1.前言1.1为什么产生数据湖数据量比较大，越来越不满足处理结构化的数据，比如说数仓，数仓就是处理结构化数据。

weixin_45810046·2023-10-11 20:55

流式数据湖平台Hudi核心概念二：表和查询类型

Hudi表类型定义了如何在DFS上对数据进行索引和布局，以及如何在此类组织之上实现上述原语和时间线活动（即如何写入数据）。反过来，查询类型定义了底层数据如何向查询公开（即如何读取数据）。表类型支持的查询类型CopyOnWrite快照查询增量查询增量查询（CDC）timetravel

shangjg3·2023-10-11 20:54

流式数据湖平台Hudi核心概念一：时间线

1.什么是HudiHudi（HadoopUpsertsDeletesandIncrementals）是一个开源的数据湖工具，用于管理大规模数据湖中的数据。

shangjg3·2023-10-11 20:53

数据湖系列(1) - Hudi 核心功能原理剖析

随着互联网业务的逐步成熟，数仓和模型训练的基本盘逐步稳固，越来越多的工程师从业务开发需求转移到了工程的架构升级，而常用的Hudi和Iceberg往往会成为替代Hive/Hdfs等架构升级的选型。概要网上关于Hudi和Iceberg对比的内容有很多，比如Iceberg对Schema友好，Hudi支持Upsert等优劣点的对比，这些内容很大程度上已经过时，在未来的几个月内，我们就能看到大部分关键功能在

小晨说数据·2023-10-11 20:49

流式数据湖平台Hudi核心概念三：索引

1.索引Hudi通过索引机制将给定的hoodiekey（recordkey+分区路径）映射到文件id，实现了高效的upstart。一旦将记录的第一个版本写入文件，recordkey和文件组/文件id之间的映射就永远不会改变。简而言之，映射的文件组包含一组记录的所有版本。对于Copy-On-Write表，可以实现快速的追加和删除操作，避免了对整个数据集进行连接以确定要重写的文件。对于Merge-On

shangjg3·2023-10-11 20:17

iceberg简介004_iceberg和其他数据湖框架的对比---数据湖Apache Iceberg工作笔记0004

然后来看一下iceberg和其他数据湖框架的对比这里可以看到hudi支持的多一点对吧,但是iceberg有自己的优势,并且他们都支持timeline也就是时间旅行对吧.然后这个图是显示了,数据湖三剑客的开源时间

脑瓜凉·2023-10-11 02:47

【数据湖Hudi-10-Hudi集成Flink-读取方式&限流&写入方式&写入模式&Bucket索引】

数据湖Hudi-10-Hudi集成Flink-读取方式&限流&写入方式一、读取方式1流读（StreamingQuery）二、限流三、写入方式1.CDC数据同步1.使用第二种方式cdc+kafka进行mysql

Apache Minor Trend·2023-10-10 21:36

推荐频道

数据湖