E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据湖
Apache Flink 在实时金融
数据湖
的应用
摘要:本文由中原银行大数据平台研发工程师白学余分享,主要介绍实时金融
数据湖
在中原银行的应用。
Apache Flink
·
2023-11-05 17:51
可视化
运维
大数据
编程语言
hadoop
数据仓库之面试
可简单说下理解与思路3.数据仓库、数据中台、
数据湖
的理解4.传统数仓的程
2a0eebe006e6
·
2023-11-04 09:56
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
这些都使得ApacheDoris成为报表分析、即席查询、统一数据仓库和
数据湖
查询加速等场景的理想工具。在ApacheDoris上,用户可以构建各种应用,如用户行为分析、AB测试平台
yue_stack
·
2023-11-04 05:32
apache
开源
架构
doris
[架构之路-250/创业之路-81]:目标系统 - 纵向分层 - 企业信息化的呈现形态:常见企业信息化软件系统 - 企业内的数据与数据库
数据库的基本概念1.7企业数据来源1.8企业数据架构二、常见的数据库类型2.1数据库分类2.1数据库类型2.2常见的数据库类型、应用场合和案例三、数据库、数据仓库和主题数据库比较3.1基本概念3.2比较3.3
数据湖
与数据仓库备注
文火冰糖的硅基工坊
·
2023-11-02 17:04
架构之路
创业之路
数据库
架构
管理
系统架构
IT
十万字图文详解mysql、redis、kafka、elasticsearch(ES)多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案,如何构建数据仓库、
数据湖
、数仓一体化?
高并发、高可用解决方案,十万字图文详解mysql、redis、kafka、elasticsearch(ES)多源异构不同种类数据库集成、数据共享、数据同步、不同中间件技术实现与方案,如何构建数据仓库、
数据湖
代码讲故事
·
2023-11-01 13:11
深耕技术之源
Delta
Lake
Apache
Hudi
Apache
Iceberg
数据湖
数仓一体化
数据仓库
数据共享
【大数据概述】Hadoop技术栈
与关系型数据库关系3.Hadoop3.1.概述3.2.Hadoop生态技术3.2.1.概述3.2.2.架构4.Spark4.1.概述4.1.1.统一的引擎5.数据存储及处理的发展5.1.数据仓库5.2.数仓+
数据湖
vk-fengz
·
2023-10-28 21:17
数据库
数据仓库
大数据
新手向:如何考虑将数据库技术和大数据框架结合使用?
数据湖
构建:随着各种数据源的增加,组织需要一个集中的存储解决方案。大数据
Joy T
·
2023-10-28 21:23
大数据
数据库
数据库
大数据
1024程序员节
后端
使用FLINK SQL从savepoint恢复hudi作业 (flink 1.13)
flink-savepoint介绍接下来我们从FlinkSQLClient构建一个mysqlcdc数据经kafka入hudi
数据湖
的例子。
BigDataToAI
·
2023-10-27 11:28
hudi
flink
flink
sql
kafka
Hudi
数据湖
-基于Flink、Spark湖仓一体、实时入湖保姆级教学
目录Hudi源码编译Hudi扫盲基于Spark-shell集成Hudi基于Spark-Hive集成Hudi手动创建HIVE表基于SparkSQL集成Hudi自动创建HIVE表基于FlinkSQL集成Hudi基于FlinkSQL-HIVE集成Hudi手动创建HIVE表基于FlinkSQL集成Hudi-自动创建Hive表基于FlinkCDC采集MySQL写入Hudi基于FlinkCDC采集Postgr
笑一笑、
·
2023-10-27 01:04
BigData
spark
flink
big
data
Hudi的介绍与安装编译
Hudi的介绍安装Maven编译Hudi执行编译Hudi的介绍Hudi简介Hudi(HadoopUpsertsDeleteandIncremental)是下一代流
数据湖
平台。
open_test01
·
2023-10-27 01:31
Hudi
大数据环境搭建
hadoop
hive
大数据
数据流程data pipeline, 2022-08-16
(2022.08.16Tues)数据流程是一种将数据从不同的原始数据源收集和引入到数据存储(如
数据湖
、datawarehouse)并用于数据分析等工作的方法。
Mc杰夫
·
2023-10-26 22:05
软信天成:今天的企业比以往任何时候都更需要「数据编目」
在当今的组织中,数据是多样的,分布在许多不同的部门、应用系统、数据仓库和
数据湖
(一些在内部,其他在云中),因此,准确地知道您拥有哪些数据和它们在哪里是一个挑战。
软信数据研究院
·
2023-10-26 09:28
软信数据研究院
大数据
2023 年最佳开源软件
上榜的25个软件涵盖编程语言、运行时、应用程序框架、数据库、分析引擎、机器学习库、大型语言模型(LLM)、用于部署LLM的工具等领域ApacheHudi在构建开放式
数据湖
或湖仓一体时,许多行业都需要一个更可发展和可变化的平台
ejinxian
·
2023-10-26 07:15
开源软件
2022年全新数据仓库面试总结大全
数据仓库一、数据仓库概述首先,我们先来看下数据库、数据集市、数据仓库以及
数据湖
的概念。1、什么是数据库?数据库(Database)是按照一定格式和数据结构在计算机保存数据的软件,属于物理层。
蜀州凯哥
·
2023-10-25 16:01
Java面试系列
数据仓库
面试
数据库
Apache Doris 极速
数据湖
分析深度解读
在最初的概念里,数据仓库被定义为「一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策」,而
数据湖
最初是为了解决数仓无法存储海量且异构的数据而构建的集中式存储系统。
SelectDB技术团队
·
2023-10-23 22:46
apache
数据库
数据仓库
数据分析
数据挖掘
数据湖
和数据仓库的建设,到底为了什么?由此产生的岗位区别在哪
数据湖
这个大坑,是怎么挖的?数据在刚刚开始的时候,还是小体量,就好比创业公司,还不足够引起人们的注意。但是当数据体量上来了,就好像变成了独角兽。
大数据的那些事
·
2023-10-23 18:15
AWS的一些概念:S3、EC2、Lambda、CodeBuild
各种规模和行业的客户都可以使用AmazonS3存储和保护任意数量的数据,用于
数据湖
、网站、移动应用程序、备份和恢复、归档、企业应用程序、IoT设备和大数据分析。
忙碌且充实
·
2023-10-23 04:43
其他
aws
云计算
关于
数据湖
架构、战略和分析的8大错误认知
本文的目的是构建
数据湖
,并提供适应企业数据策略的背景信息。咨询公司和提供商提出的意见相互矛盾,因此,这些信息历来一直不透明,令人困惑。
公众号:肉眼品世界
·
2023-10-21 11:52
数据仓库
大数据
编程语言
数据库
python
独家 | 关于
数据湖
架构、战略和分析的8大错误认知(附链接)
本文打破有关
数据湖
的8个错误认知,错误认知包括3方面,还提出了5个小技巧,以构建一个灵活的、可交付业务价值的
数据湖
。本文的目的是构建
数据湖
,并提供适应企业数据策略的背景信息。
「已注销」
·
2023-10-21 10:39
使用 ClickHouse 深入了解 Apache Parquet (一)
这种采纳使其成为更近期的
数据湖
格式的基础,例如ApacheIceberg。在这个博客系列中,我们探讨如何使用ClickHouse读写这种格式,然后更详细地
沃趣数据库管理平台
·
2023-10-20 17:01
技术专栏
clickhouse
性能优化
数据库
运维
sql
大数据之力:从
数据湖
到数据智能的升级之路
文章目录什么是
数据湖
?什么是数据智能?
IT·陈寒
·
2023-10-20 12:35
Java学习路线
AIGC人工智能
大数据
基于Delta Lake的Upserts
数据湖
方案
DeltaLake是基于ApacheSpark的下一代
数据湖
存储引擎,支持Merge命令,可以高效的完成upsert或删除。1为什么需要Upserts?
AllenGd
·
2023-10-20 01:50
大数据
大数据
【转】数据库、
数据湖
、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?
这套架构,以
数据湖
为中心,把
数据湖
作为中央存储库,再围绕
数据湖
建立专用“数据服务环”,环上的服务包括了数仓、机器学习、大数据处理、日志分析,甚至RDS和NOSQL服务
万州客
·
2023-10-19 22:56
科杰科技:基于湖仓一体架构的Hudi技术实现
一湖仓一体架构的定义和特点湖仓一体架构是一种结合
数据湖
和数据仓库的数据管理架构。它的核心思想是将
数据湖
和数据仓库合并为一个整体,实现数据的统一管理和分析。
科杰科技
·
2023-10-19 17:34
架构
数据仓库
数据库架构
大数据
基于flink 的LakeHouse 2.0湖仓一体架构
基于flink的LakeHouse2.0湖仓一体架构简介Lakehouse是一种结合了
数据湖
和数据仓库优势的新范式,解决了
数据湖
的局限性。
活在风浪里~
·
2023-10-19 17:03
大数据架构
flink
架构
数据仓库
hadoop
大数据
湖仓一体架构的特性
湖仓一体架构是一种数据架构模式,具有以下特性:统一存储:湖仓一体架构将
数据湖
和数据仓库合并为一个整体,将结构化数据和非结构化数据存储在同一个存储系统中,如Hadoop分布式文件系统(HDFS)或云存储服务
abckingaa
·
2023-10-19 17:55
DB
DB
滴滴 OrangeFS
数据湖
存储关键技术揭秘!
2015年,滴滴为解决小文件和图片的存储,成立GIFT小对象存储项目。伴随着业务不断成长,我们面临的挑战也越来越多,经历多次非结构化存储架构演进,具体如下图所示:随着公司不断发展,滴滴的业务有两个发展的趋势:云原生技术战略和新业务涌现,都给存储系统带来了新的挑战。在云原生战略中,业务的极致弹性是提高资源利用率降低成本的一个目标。保障极致弹性的基础是容器的轻量化,而要实现容器的轻量化就必须实现存算分
滴滴技术
·
2023-10-19 06:32
大数据数仓搭建-大数据用户画像推荐系统搭建
虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在
数据湖
,而
老姜的数据江湖
·
2023-10-18 21:10
大数据
大数据数仓搭建
大数据用户画像
大数据架构
大数据推荐算法
AWS Boto3 S3对象上传与下载
各种规模和行业的客户都可以使用AmazonS3存储和保护任意数量的数据,用于
数据湖
、网站、移动应用程序、备份和恢复、归档、企业应用程序、IoT设备和大数据分析。
东子z
·
2023-10-18 17:21
Python
aws
python
大数据
从理论到实践,实时湖仓功能架构设计与落地实战
在上篇文章中,我们向大家解释了为什么实时湖仓是当前企业数字化转型过程中的解决之道,介绍了实时计算和
数据湖
结合的应用场景。(“数据驱动”时代,企业为什么需要实时湖仓?)
袋鼠云数栈
·
2023-10-18 13:51
大数据
回顾 | Apache Flink x Iceberg Meetup · 上海站精彩回顾 (附PPT下载)
本次Meetup,社区邀请了来自阿里巴巴、腾讯、Dell科技集团、汽车之家的4位技术专家分享了超多关于Flink&
数据湖
的内容,全方位解析
数据湖
生产应用难题。
Apache Flink
·
2023-10-18 11:46
人工智能
编程语言
flink
数据分析
数据可视化
BI工具-DataEase(2) 基础使用
先讲下工具栏,分别是仪表盘,数据集,数据源,模板市场等等.和大多数的BI工具一样,首先配置的就是数据源1.数据源:支持OLTP,OLAP,数仓/
数据湖
,我们这边还是使用的mysql新建mysql数据源,
大曲·蜗牛
·
2023-10-17 18:53
大数据
数据库、数据中台、数据仓库、
数据湖
区别
数据时代,各行业的企业都已经开始通过数据库来沉淀数据,但是真的论起数据库、数据仓库、数据中台,还是新出现的
数据湖
,它们的概念和区别,可能知道的人就比较少了,今天我们详细来比较了解一下。
那小子、真烦
·
2023-10-17 13:06
数据库
阿里云“玩转云上 StarRocks3.0 湖仓分析”,开启数据分析新范式
通过存算分离架构,帮助用户降低存储成本、提升计算弹性;通过
数据湖
阿里云大数据AI技术
·
2023-10-16 12:27
阿里云
数据分析
云计算
数据湖
和数据仓库的区别?
进行数据分析工作的时候会用到很多的工具,比如说
数据湖
和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家知道不知道
数据湖
和数据仓库的区别是什么呢?
RonnieZhang1989
·
2023-10-15 03:25
Flink CDC使用DataStream API方式同步数据到Iceberg
数据湖
目录1.背景2.同步表情况3.程序4.结果说明1.背景虽然使用SQL的方式进行同步非常方便。但是该方式,每向一个Iceberg目标表导入数据,都会向集群提交一个Application,非常消耗集群的资源通过DataStreamAPI的方式,可以只检索Mysql的数据源一次,就可同步多个数据库的多个数据表。然后通过Flink的SideOutput将数据分成多个流。然后再将多个流分别导入到不同的Ice
Bulut0907
·
2023-10-14 01:45
#
Iceberg
#
Flink
Iceberg
flink
cdc
datastream
实时同步
数据湖
apache atlas 案例_元数据治理 Apache Atlas
采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级
数据湖
的重要部分。该项
CelioHsu
·
2023-10-13 18:47
apache
atlas
案例
Dremio:新一代
数据湖
仓引擎
Dremio
数据湖
引擎1、什么是Dremio2、
数据湖
仓2.1、什么是
数据湖
仓2.2、
数据湖
仓的历史和演变2.3、开放数据对
数据湖
和湖仓的重要性2.4、
数据湖
仓的作用2.5、
数据湖
仓如何工作2.6、
数据湖
仓的元素
对许
·
2023-10-12 15:03
数据仓库
大数据
云计算
大数据下一代变革之必研究
数据湖
技术Hudi原理实战双管齐下-下
文章目录集成Spark开发Spark编程读写示例DeltaStreamer集成Flink环境准备sql-clent使用启动插入数据流式读取Bucket索引HudiCatalog集成Spark开发Spark编程读写示例通过IDE如Idea编程实质上和前面的spark-shell和spark-sql相似,其他都是Spark编程的知识,下面以scala语言为示例,idea新建scala的maven项目p
IT小神
·
2023-10-12 15:56
大数据
数据仓库
大数据
scala
spark
flink
大数据下一代变革之必研究
数据湖
技术Hudi原理实战双管齐下-上
文章目录概述定义发展历史特性使用场景编译安装编译环境编译Hudi关键概念TimeLine(时间轴)FileLayouts(文件布局)索引表类型查询类型概述定义ApacheHudi官网地址https://hudi.apache.org/ApacheHudi官网文档https://hudi.apache.org/docs/overviewApacheHudiGitHub源码地址https://gith
IT小神
·
2023-10-12 15:55
大数据
数据仓库
大数据
hadoop
spark
大数据之Hudi
数据湖
_版本兼容与Maven安装配置_解决Hudi与Hadoop3.0的兼容问题_编译hudi源码---大数据之Hudi
数据湖
工作笔记0002
然后我们来看一下,hudi我们这次安装的时候,各个组件的版本信息这个hudi对各个版本的支持还是很多的,需要在安装的时候查一下具体的可以这样查一下去看一下具体的hudi对spark的支持是多少,对flink的支持的版本是多少等等可以很容易查到然后hudi
脑瓜凉
·
2023-10-12 15:47
hudi数据湖安装
hudi源码编译
hudi与Hadoop
huidi与Hadoop3.x
数据仓库与
数据湖
的联系与区别
一、数据仓库1,定义数据仓库是从广泛的运营和外部数据源中积累的组织数据的大型存储库。数据经过结构化、过滤并已针对特定目的进行处理。数据仓库会定期从各种内部应用程序和外部合作伙伴系统中提取处理过的数据,以进行高级查询和分析。2,数据仓库系统作用(1)提供加强的商业智能BI利用从各种数据源提供的数据,管理人员和高管们将不再需要凭着有限的数据或他们的直觉做出商业决策。此外,“数据仓库及相关商业智能BI可
晓之以理的喵~~
·
2023-10-11 22:03
数据库
数据分析
大数据
数据仓库
数据库
数据挖掘
数据仓库与
数据湖
的区别以及数据入湖方式
数据仓库与
数据湖
的区别1)从使用对象来看,数据仓库主要是给BI分析的数据分析师使用的,而
数据湖
是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是BI.2)从数据处理的过程来看,数据仓库是
一米大六的八个
·
2023-10-11 22:21
数据仓库
大数据
余老师带你学习大数据框架全栈第十三章Hudi第一节核心技术
1.前言1.1为什么产生
数据湖
数据量比较大,越来越不满足处理结构化的数据,比如说数仓,数仓就是处理结构化数据。
weixin_45810046
·
2023-10-11 20:55
hudi
数据湖
流式
数据湖
平台Hudi核心概念二:表和查询类型
Hudi表类型定义了如何在DFS上对数据进行索引和布局,以及如何在此类组织之上实现上述原语和时间线活动(即如何写入数据)。反过来,查询类型定义了底层数据如何向查询公开(即如何读取数据)。表类型支持的查询类型CopyOnWrite快照查询增量查询增量查询(CDC)timetravel
shangjg3
·
2023-10-11 20:54
数据湖
spark
大数据
数据仓库
flink
分布式
流式
数据湖
平台Hudi核心概念一:时间线
1.什么是HudiHudi(HadoopUpsertsDeletesandIncrementals)是一个开源的
数据湖
工具,用于管理大规模
数据湖
中的数据。
shangjg3
·
2023-10-11 20:53
数据湖
大数据
数据仓库
flink
spark
sql
数据湖
系列(1) - Hudi 核心功能原理剖析
随着互联网业务的逐步成熟,数仓和模型训练的基本盘逐步稳固,越来越多的工程师从业务开发需求转移到了工程的架构升级,而常用的Hudi和Iceberg往往会成为替代Hive/Hdfs等架构升级的选型。概要网上关于Hudi和Iceberg对比的内容有很多,比如Iceberg对Schema友好,Hudi支持Upsert等优劣点的对比,这些内容很大程度上已经过时,在未来的几个月内,我们就能看到大部分关键功能在
小晨说数据
·
2023-10-11 20:49
大数据
数据库
python
java
spark
流式
数据湖
平台Hudi核心概念三:索引
1.索引Hudi通过索引机制将给定的hoodiekey(recordkey+分区路径)映射到文件id,实现了高效的upstart。一旦将记录的第一个版本写入文件,recordkey和文件组/文件id之间的映射就永远不会改变。简而言之,映射的文件组包含一组记录的所有版本。对于Copy-On-Write表,可以实现快速的追加和删除操作,避免了对整个数据集进行连接以确定要重写的文件。对于Merge-On
shangjg3
·
2023-10-11 20:17
数据湖
大数据
数据仓库
flink
分布式
spark
iceberg简介004_iceberg和其他
数据湖
框架的对比---
数据湖
Apache Iceberg工作笔记0004
然后来看一下iceberg和其他
数据湖
框架的对比这里可以看到hudi支持的多一点对吧,但是iceberg有自己的优势,并且他们都支持timeline也就是时间旅行对吧.然后这个图是显示了,
数据湖
三剑客的开源时间
脑瓜凉
·
2023-10-11 02:47
数据湖三剑客对比
数据湖框架对比
数据湖对比
【
数据湖
Hudi-10-Hudi集成Flink-读取方式&限流&写入方式&写入模式&Bucket索引】
数据湖
Hudi-10-Hudi集成Flink-读取方式&限流&写入方式一、读取方式1流读(StreamingQuery)二、限流三、写入方式1.CDC数据同步1.使用第二种方式cdc+kafka进行mysql
Apache Minor Trend
·
2023-10-10 21:36
大数据
数据湖
hudi
大数据
hadoop
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他