E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓
mysql8之前如何实现row_number() over(partition by xxx order by xxx asc/desc)
文章目录背景问题分析难点解决方案:总结公式多字段作为分组如何处理背景最近笔者在进行对广告业务的数据统计时遇到这种情况,业务方嫌弃离线
数仓
太慢,又无需太高的实时性本该使用即席查询的OLAP去做,但是当前公司调研的
扫地增
·
2025-05-05 03:28
sql
mysql
5
mysql5.7
大数据面试问答-数据湖
2.与
数仓
对比维度数据仓库数据湖数据存储处理后的结构化数据原始数据(结构化/半结构化/非结构化)Schema处理Schema-on-Write(写入时
孟意昶
·
2025-05-03 20:14
数据开发面试经验记录
大数据
面试
职场和发展
Hive性能调优详解系列之hive建表设计层面调优_
数仓
工程师必备hive调优方案
一.调优概述Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含Hive的建表设计方面,对HiveHQL语句本身的优化,也包含Hive配置参数和底层引擎MapReduce方面的调整。所地这次调优主要分为以下四个方面展开:1、Hive的建
老姜的数据江湖
·
2025-05-03 08:25
大数据数仓
hive
hadoop
数据仓库
Doris索引机制全解析,如何用高效索引加速数据分析
ApacheDoris作为新一代MPP分析型数据库,凭借其独特的索引机制,在京东、美团等企业的实时
数仓
场景中展现出卓越性能。本文将深入解析Doris索引设计的精妙之处。
数据最前线
·
2025-05-02 06:25
Doris数据库专栏
数据分析
数据挖掘
Flink Checkpoint 与实时任务高可用保障机制实战
在实时
数仓
体系中,数据一致性和任务稳定性是核心保障。本文围绕FlinkCheckpoint机制,深入讲解高可用保障的最佳实践和工程实现。
晴天彩虹雨
·
2025-04-30 10:16
Flink
+
Kafka
实时数仓实战
flink
npm
前端
数据仓库
Flink 数据清洗与字段标准化最佳实践
——构建可配置、可扩展的实时标准化清洗链路本文是「Flink+Kafka构建实时
数仓
实战」专栏的第4篇,将围绕字段标准化这一核心问题,从业务痛点、技术架构、配置设计到完整代码工程,系统讲透标准化实践。
晴天彩虹雨
·
2025-04-29 11:18
Flink
+
Kafka
实时数仓实战
flink
大数据
数据仓库
Flink+Hologres搭建实时
数仓
参考资料文档文档链接阿里云实时计算flink文档https://help.aliyun.com/zh/flink/product-overview/what-is-alibaba-cloud-realtime-compute-for-apache-flink?spm=a2c4g.11186623.help-menu-45029.d_0_0_0.1bbc67b8VuD3Anhologres数据库说明
闭嘴!我不是SQL boy
·
2025-04-29 11:16
FLINK
flink
大数据
数仓
分层架构:从原始数据到业务价值的全链路实践
一、
数仓
分层的技术解剖1.1ODS层:数据世界的原始基因库作为数据体系的基石,O
我科绝伦(Huanhuan Zhou)
·
2025-04-29 05:35
架构
Kafka 主题设计与数据接入机制
一、前言:万物皆流,Kafka是入口在构建实时
数仓
时,Kafka既是数据流动的起点,也是后续流处理系统(如Flink)赖以为生的数据源。
晴天彩虹雨
·
2025-04-27 13:21
Flink
+
Kafka
实时数仓实战
kafka
linq
分布式
数据仓库
一文弄懂
数仓
、数据湖、湖仓一体
一、大白话解释:
数仓
、数据湖、湖仓一体1.数据仓库(
数仓
)定义:就像一家超市的「整理货架」,把所有商品(数据)按类别(主题)摆放得整整齐齐,方便随时找到需要的商品(生成报表)。
IT界的奇葩
·
2025-04-24 17:40
大数据
快速认识:数据库、
数仓
(数据仓库)、数据湖与数据运河
数据技术核心概念对比表概念核心定义核心功能数据特征典型技术/工具核心应用场景数据库结构化数据的「电子档案柜」,按固定schema存储和管理数据,支持高效读写和事务处理。实时事务处理(增删改查),确保数据一致性(ACID特性),支持单表/关联查询。结构化数据(表格式),Schema固定,数据高度清洗。关系型:Oracle、MySQL、PostgreSQL、TiDB非关系型:MongoDB、Redis
白-胖-子
·
2025-04-22 21:59
大数据
数据库
数据库
数据仓库
大数据
人工智能
linux
大数据开发-数据仓库介绍
目录标题1、数据仓库1.1
数仓
为何而来?
海星?海欣!
·
2025-04-20 03:11
#
大数据-数据仓库
数据仓库
大数据
数据库
大数据开发之数据仓库
引言最近工作中引入了模型策略,所以在平时会在
数仓
上进行一些作业开发,分析数据,今天就基础性的了解下
数仓
的架构。什么是
数仓
?
高冷小伙
·
2025-04-20 03:40
大数据开发
大数据
数据仓库
数仓
一、
数仓
分层1.
数仓
的分层ODS(原始数据层)层:将导入
数仓
的数据,保持原貌,不做任何处理!举例:日志:xxxx.lzo,一条数据是一行!ODS:xxxx.lzo,1列也是分区表!以日期作为分区字段!
Aspiring Q
·
2025-04-18 20:52
数仓
数仓
建模—Deepseek + Lakehouse 架构 加速企业数字化转型 降本增效
Deepseek+Lakehouse架构最近Deepseek这股风刮得太猛了,本周末的大事莫过于腾讯于2025年2月15日晚开始灰度测试在微信中接入DeepSeek-R1模型。作为一个月活将近14亿的国民级app,表达一个开放的意愿就已经能够让股价火箭上天。而另一面,笔者的朋友圈也都很躁动,众多企业朋友们都在热情入局Deepseek。今天想跟大家聊聊最近比较火的Deepseek私有部署+Lakeh
不二人生
·
2025-04-18 07:53
数仓建模
架构
人工智能
deepseek
数据湖
Doris实战——结合Flink构建极速易用的实时
数仓
_flink doris
原文大佬的这篇Doris+Flink构建实时
数仓
的实战文章整体写的很深入,这里直接摘抄下来用作学习和知识沉淀。
2301_82243558
·
2025-04-17 10:41
程序员
flink
大数据
Doris实战——结合Flink构建极速易用的实时
数仓
_flink doris(1)
综上可知,利用FlinkCDC结合Doris两阶段事务提交保证了数据写入一致性。需要注意的是,在该过程中可能遇到一个问题:如果事务预提交成功、但FlinkCheckpoint失败了该怎么办?针对该问题,Doris内部支持对写⼊数据进⾏回滚(Rollback),从⽽保证数据最终的⼀致性。3.1.3DDL和DML同步随着业务的发展,部分用户可能存在RDSSchema的变更需求。当RDS表结构发生变更时
2301_79988566
·
2025-04-17 10:11
程序员
flink
大数据
AWS Redshift的使用场景及一些常见问题
Redshift不是关系型数据库,提供了AmazonRedshiftServerless和AmazonRedshift都是构建于Redshift
数仓
引擎之上的,但它们适用的场景不同。
cocosgirl
·
2025-04-15 15:31
aws
云计算
川普vs某互联网金融科技公司:面试提问数据建模,必须由
数仓
团队来做吗?业务系统不能做吗?
前言近日川建国(资深
数仓
工程师)同志面试某互金科技公司惨遭失败,被面试官问到“数据建模,必须由
数仓
团队来做吗?业务系统不能做吗?”这一问题时不知道该如何回答。
莫叫石榴姐
·
2025-04-14 13:02
数字化建设通关指南
数仓的哲与思
金融
科技
面试
数据仓库
职场和发展
数据分析
大数据
第四十六篇 人力资源管理数据仓库架构设计与高阶实践
——湖仓一体、实时计算与AI增强下的HR
数仓
革新引言:HR数字化转型的底层逻辑重构在VUCA时代,人力资源管理正从"记录系统"向"决策中枢"演进。
随缘而动,随遇而安
·
2025-04-11 23:54
数据库
sql
数据仓库
大数据
数据库架构
深入解析:
数仓
建模之雪花模型,解锁数据仓库的高效架构
引言在当今数字化时代,企业面临着海量数据的挑战,如何高效地存储、管理和分析这些数据成为关键。数据仓库建模作为数据管理的重要环节,其设计的合理性直接影响到数据查询的性能和数据的可维护性。今天,我们将深入探讨雪花模型这一强大的数据仓库建模方法,解锁其在数据管理中的独特魅力。背景数据仓库建模是数据仓库设计的核心环节,它通过定义数据的存储结构,帮助我们更好地组织和管理数据。常见的数据仓库建模方法包括星型模
AAEllisonPang
·
2025-04-11 09:46
数仓
spark
大数据
分布式
大数据(4)Hive
数仓
三大核心特性解剖:面向主题性、集成性、非易失性如何重塑企业数据价值?
目录背景:企业数据治理的困境与破局一、Hive数据仓库核心特性深度解析1.面向主题性(Subject-Oriented):从业务视角重构数据2.集成性(Integrated):打破数据孤岛的统一视图3.非易失性(Non-Volatile):数据资产的时光胶囊二、企业级实践:Hive在智能零售的完整落地1.业务需求2.Hive解决方案架构3.性能关键点三、总结与演进方向大数据相
一个天蝎座 白勺 程序猿
·
2025-04-10 09:16
大数据开发从入门到实战合集
hive
hadoop
数据仓库
大数据架构师选型必懂:大数据离线
数仓
开发框架详解与对比(hive、Spark SQL、Impala、Doris)
第一章相关理论1.1大数据离线
数仓
理论1.1.1基本原理大数据离线
数仓
,作为一个专门构建用于支持决策分析过程的数据集合,具有面向主题、集成、不可更新以及随时间变化的特点。
大模型大数据攻城狮
·
2025-04-09 05:10
大数据
hive
spark
大数据架构师
doris面试
数仓选型
数据仓库
【数据仓库】数据库仓库分层
何为
数仓
DWDatawarehouse(可简写为DW或者DWH)数据仓
奋力向前123
·
2025-04-07 18:51
数据库
java
数据仓库
大数据
Hive学习(7)Hive核心函数解密:pmod()的9大高阶用法与避坑指南
背景在Hive
数仓
开发中,pmod()作为数学计算领域的关键函数,常被用于金融周期计算、数据分片、时间序列处理等场景。
一个天蝎座 白勺 程序猿
·
2025-04-06 12:17
大数据开发从入门到实战合集
sql
hive
王二狗 vs 京东面试官:作为
数仓
工程师是如何和业务方沟通需求的?需求模糊或存在冲突时,你是怎么处理的?
目录一、面试场景:王二狗(
数仓
工程师)vs京东面试官背景面试对话实录失败原因分析面试官反馈(模拟)启示:如何避免成为“王二狗”?
莫叫石榴姐
·
2025-04-06 11:10
数字化建设通关指南
数仓的哲与思
java
人工智能
开发语言
面试
数仓
实践:企业级 CDP 数据工程实践经验
大家好,许久未见,我是云祁~今天想和大家分享下企业级CDP项目建设中的数据工程实践。在很多情况下,大家可能会将数据工程与ETL的过程画上等号,但实际上ETL只是数据工程的一部分,其工作量通常仅占整个数据项目的30%左右。而一个数据工程项目,本质上是要解决三大问题:客户有什么?客户想要什么?怎样设计最合理?因此,在数据工程项目中,数据现状梳理、业务理解和数据模型设计等工作量通常占据了项目的大部分,约
云 祁
·
2025-04-05 16:32
数仓实践
数据仓库
数据库架构
大数据
大数据(4.1)Hive架构设计与企业级实战:从内核原理到性能巅峰优化,打造高效数据仓库
目录背景与行业痛点一、Hive内核机制深度拆解1.元数据管理的艺术:Metastore核心原理2.执行引擎的底层博弈:MapReducevs.Tezvs.Spark二、企业级
数仓
建模实战:金融风控场景
一个天蝎座 白勺 程序猿
·
2025-04-05 01:21
大数据开发从入门到实战合集
数据仓库
hive
hadoop
oracle拉链表实现原理,数据仓库-拉链表+增量表抽取的实现
背景:业务部门提了用户分层的需求,其中有一点,业务放需要我们
数仓
提供历史数据,并且业务库里的部分表还没有数据更新时间字段。
红茶漫山
·
2025-04-04 15:17
oracle拉链表实现原理
实时
数仓
Kappa架构:从入门到实战
实时
数仓
(Real-TimeDataWarehouse,RTDW)应运而生,其中Kappa架构作为一种简化的数据处理架构,通过统一的流处理框架,解决了传统Lambda架构中批处理和实时处理的复杂性。
喜欢猪猪
·
2025-04-03 20:10
架构
重磅活动!3.14,与数智领袖共探 NoETL 指标平台最佳实践无标题】
AloudataCAN以强大的指标定义和查询加速能力,直连
数仓
公共层明细数据,自动化代持宽表与汇总表开发,实现了NoSQL指标定义、NoETL指标开发、统一指标管理,一举解决了指标“开发周期长、口径不统一
Aloudata
·
2025-04-01 15:07
大数据
指标平台
数据分析
指标管理
大模型
【数据仓库】湖仓一体黄金层与
数仓
维度建模的关系分析
湖仓一体黄金层与
数仓
维度建模的关系分析1.黄金层的定义与作用湖仓一体架构通常分为原始层(RawLayer)、中间层(IntermediateLayer)和黄金层(GoldLayer)。
小技工丨
·
2025-03-31 04:22
大数据随笔
数据仓库
数据仓库:如何解决ODS数据零点漂移问题
本篇文章讲解的是从业务库同步数据至
数仓
导致的零点漂移,查看flume+kafka同步数据导致的零点漂移参考该文章:业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)一、数据零点漂移概念1
夜希辰
·
2025-03-31 01:35
数据仓库
大数据
基于云服务器的
数仓
搭建-hive/spark安装
mysql本地安装安装流程(内存占用200M,升至2.1G)#将资料里mysql文件夹及里面所有内容上传到/opt/software/mysql目录下mkdir/opt/software/mysqlcd/opt/software/mysql/#待上传文件install_mysql.shmysql-community-client-8.0.31-1.el7.x86_64.rpmmysql-commu
AlphaFree_
·
2025-03-30 11:32
服务器
hive
spark
flink重温笔记(一):Flink 基础入门
Flink重温笔记(一)前言:最近发现Flink技术在实时
数仓
开发上占比越来越明显,希望通过抓紧复习,加强对Flink的理解和应用,提升自己实时
数仓
的开发能力,以下是今日整理的学习笔记,各种图像均按照自己理解重画
卡林神不是猫
·
2025-03-30 10:54
Flink重温笔记
flink
笔记
大数据
学习方法
数据仓库
经验分享
镜舟科技荣膺“北京市用户满意企业”认证,以用户为中心驱动高质量发展
作为新一代数据架构的践行者,镜舟科技率先推出基于StarRocks的Lakehouse解决方案,帮助企业客户实现从传统
数仓
向现代化Lakehouse架构的平滑演进。依托强大的技术创新能力和深耕行业
·
2025-03-30 04:15
数据创新产品客户满意度架构
基于云服务器的
数仓
搭建-服务器配置
购置三台云服务器,总支出353/年,华为云/百度云/ucloud的新用户优惠(阿里云的之前用掉了,现在买2c2g要900多)。finalshell连接三台服务器,ssh,输入用户名和密码即可连接成功,服务器侧22端口打开FinalShellSSH工具,服务器管理,远程桌面加速软件,支持Windows,macOS,Linux,版本4.5.12,更新日期2024.10.30-FinalShell官网e
AlphaFree_
·
2025-03-28 19:23
服务器
运维
数据湖和Apache Iceberg,Apache Hudi,Delta Lake
数据湖这个词目前已经流行开来,逐步被数据相关的从业者接受,可能还有很多人不太清楚它和Hadoop,Hive,Spark这些大数据系统的区别,简单说数据湖是个业务概念,主要是为了区别传统
数仓
这个概念的(传统
数仓
的定义
西土城计划
·
2025-03-27 05:17
apache
big
data
大数据
Data Warehouse 系列之构建业务总线矩阵
一、什么是
数仓
总线矩阵?数据仓库总线矩阵(DataWarehouseBusMatrix)是数据仓库设计中一个重要工具。
数字游牧人0v0
·
2025-03-26 22:29
矩阵
spark
数据库
数仓
业务总线矩阵设计实战,重塑企业核心架构 | 架构师必读
目录引言:为什么需要业务总线矩阵?一、业务总线矩阵的核心要素1什么是数据总线及总线矩阵数据总线
莫叫石榴姐
·
2025-03-26 22:26
数字化建设通关指南
#
数据建模
矩阵
架构
大数据
数据仓库
尚硅谷大数据项目【电商
数仓
6.0】-Kafka安装-3
解压tar-zxvf/opt/software/kafka_2.12-3.3.1.tgz-C/opt/module/mvkafka_2.12-3.3.1/kafkacd/opt/module/kafka/configviserver.properties#LicensedtotheApacheSoftwareFoundation(ASF)underoneormore#contributorlice
Xiaoweidumpb
·
2025-03-25 15:32
大数据
kafka
分布式
大数据项目之电商
数仓
(用户行为采集平台)
大数据项目之电商
数仓
(用户行为采集平台)版本:V5.0第1章数据仓库概念数据仓库(DataWarehouse),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。
qq_42042882
·
2025-03-25 15:01
大数据
尚硅谷大数据项目【电商
数仓
6.0】-Datax-6
安装tar-zxvfdatax.tar.gz-C/opt/module/测试python/opt/module/datax/bin/datax.py/opt/module/datax/job/job.jsonMySQLToHDFS根据官方文档写配置json{"job":{"content":[{"reader":{"name":"mysqlreader","parameter":{"column"
Xiaoweidumpb
·
2025-03-25 14:26
大数据技术
大数据
大数据学习-hive(四:
数仓
搭建,数据监控,数据支持)
一:
数仓
搭建1:完备性。要保证所需要的数据全部到达
数仓
。2:准备性。etl,和数据的计算校验,确保输出的数据准确。3:一致性。确保输出端口一致,防止输出数据不准。4:时效性。每天的定时调度。
宇智波云
·
2025-03-25 14:23
大数据项目
hive
hive
【数据仓库】
数仓
维度建模中的事实表核心概念与实践案例
数仓
维度建模中的事实表核心概念与实践案例在数据仓库的维度建模中,事实表(FactTable)是分析系统的核心,用于存储业务过程的量化度量(如销售额、订单数量),并通过外键关联维度表(如时间、产品、客户)
小技工丨
·
2025-03-25 03:34
大数据随笔
数据仓库
大数据
spark
大数据学习(82)-
数仓
详解
如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦一、什么是数据仓库数据仓库(下文以“
数仓
”称),顾名思义,存放数据的仓库,它集合了各个业务系统的数据,以金融业为例,
数仓
包含了贷款业务、
viperrrrrrr
·
2025-03-24 20:41
大数据
学习
数仓
读书笔记五 ---大数据之路--
数仓
分层
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据(进行了数据清洗),包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。(原始数据
qq_38215991
·
2025-03-23 08:11
big
data
大数据
LakeHouse湖仓一体成为下一站灯塔,
数仓
、数据湖架构即将退出群聊
摘要:当前的大数据技术应用趋势表明,客户对单一的数据湖和
数仓
架构并不满意。
科杰科技
·
2025-03-21 17:26
大数据
数据仓库
尚硅谷电商
数仓
6.0,hive on spark,spark启动不了
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
新时代赚钱战士
·
2025-03-20 20:57
hive
spark
hadoop
数仓
建模—Data Warebase AI 时代数据平台应当的样子
DataWarebaseAI时代数据平台应当的样子引言:在这个AI技术飞速发展的时代,我们有能力更深入地发掘数据潜在的价值,而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式,它让数据的使用返璞归真,不论是存储还是查询,一个系统满足业务全方位数据需求。打破复杂数据架构的束缚,大大降低数据的使用门槛,释放数据潜能,让数据涌现智能。背景近二十年大数据发展史2002年我
不二人生
·
2025-03-20 18:43
数仓建模
人工智能
数据仓库
数仓建模
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他