E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据之路
大数据之路
:阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余:不同业务重复存储相同数据(如用户基础信息),导致存储成本激增。计算资源浪费:未经聚合的明细数据直接参与计算(如全表扫描),消耗大量CPU/内存资源。数据一致性缺失:同一指标在不同业务线的口径差异(如“活跃用户”定义不同),引发决策冲突。开发效率低下:每次分析需重新编写复杂逻辑,无法复用已有模型。数据建模核心价值性能提升:分层设计(ODS→DWD→DWS→ADS)
·
2025-07-29 22:07
git的文件大小超限处理
gitpush报错:remote:error:File阿里
大数据之路
_笔记版本.pdfis110.83MB;thisexceedsGitHub’sfilesizelimitof100.00MB该怎么处理
John Song
·
2025-06-10 01:03
git
git
读书笔记五 ---
大数据之路
--数仓分层
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据(进行了数据清洗),包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。(原始数据
qq_38215991
·
2025-03-23 08:11
big
data
大数据
【
大数据之路
11】多范式编程语言 Scala
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
程序员老五
·
2025-01-24 20:55
大数据
scala
开发语言
我的
大数据之路
- 基于HANA构建实时方案的历程
产品内部前期有一个共识,依据业务要求的时效性来选择技术平台,即:实时类业务,时效性小于2小时,则使用HANA构建。离线类业务,时效性大于2小时,则使用大数据平台构建。经过五月、六月两月的努力,离线类的业务已基本完成开发和验证完毕,后面待在生产环境对数完毕后,即可启动切换。因此实时类业务的方案分析和梳理,成为当下最重要、最紧急的事情。考虑到项目当前的痛点:直接从I层构建业务,没有复用主题层的模型和资
小南家的青蛙
·
2024-02-13 01:45
经验总结
大数据
数据仓库
大数据之路
—数据架构体系及模型设计
大数据之路
—数据架构体系及模型设计一、阿里巴巴数据整合及管理体系二、维度设计1、基本概念2、规范化和反规范化3、维度整合4、维度拆分5、维度变化6、特殊维度三、事实表设计1、事实表特性2、事实表类型3、
长不大的大灰狼
·
2024-02-05 04:03
大数据
大数据
架构
《
大数据之路
:阿里巴巴大数据实践》学习笔记,持续更新ing
笔记链接(飞书):https://t0s016els2a.feishu.cn/docx/JrNydGljUonH1ExcGCpcoC8unTb密码:r6@61391该书籍部分目录如下:文章目录第1篇数据技术篇第2章日志采集2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集2.1.3页面日志的服务端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件
helloooi
·
2024-02-01 00:27
#
业务理解
模型建设
大数据
学习
笔记
大数据之路
-日志采集(第二章)
文章目录2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集流程2.1.3页面日志的服务器端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件点击及其他事件2.2.3特殊场景2.2.4H5&Native日志统一2.2.5设备标识2.2.6日志传输2.3日志采集的挑战2.3.1典型场景1.日志分流与定制处理2.3.2大促保障阿里巴巴的日志采集体系方案
小白15138
·
2024-01-25 12:42
大数据
大数据之路
——数据同步(第三章)
文章目录3.1数据同步基础3.1.1直连同步3.1.2数据文件同步3.1.3数据库日志解析同步 如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分。数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景。主数据库与备份数据库之间的数据备份,以及主系统与子系统之间的数据更新,属于同类型不同集群数据库之间的数据同步。另外,还有不同地域、不同数据库类型之间的数据传输交换,比如
小白15138
·
2024-01-25 12:39
大数据
李浩然:从大数据能力提升项目出发,探索化工
大数据之路
| 提升之路系列(一)...
导读为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新
数据派THU
·
2024-01-20 12:59
大数据
数据仓库理论进阶 - 01 《阿里
大数据之路
》第二篇数据模型篇
第8章大数据领域建模综述此文章为学习笔记,有兴趣的小伙伴可以根据以下指引获取更多,学习内容链接如下:视频:【一起啃书】阿里
大数据之路
数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili书籍:《
:Concerto
·
2024-01-05 08:43
数据仓库
big
data
数据库
我的
大数据之路
:2023年度总结
2023年度最值得骄傲的事从0到1搭建了离线数仓体系,针对Hadoop生态组件的原理和特性有了深入的理解。同时对“数据治理”有了一定的实践经验:存储治理:HDFS基于纠删码的存储空间占用上优于多副本存储;冷数据使用对象存储可以大幅降低成本。计算治理:基于RoaringBitmap的去重统计方案适合高性能的产品功能使用,但针对运营产品人员进行内部分析使用则不够友好,内部的多维分析可以考虑标签化的解法
话数Science
·
2024-01-03 18:07
大数据
面试
大数据
面试
spark
也谈数据治理
部分:数据治理规范》,从非常宏观的角度来制定,侧重于拉通概念和达成共识,像一种“国家标准”;《华为数据之道》是从企业数字化的角度切入下去,侧重数据治理体系和方法论,属于一种“管理方案”;而阿里推出的《
大数据之路
晓阳的数据小站
·
2024-01-03 05:16
2019年05月 记录本
【最近最想读的五本书】1阿里
大数据之路
2刺杀骑士团长3东方列车谋杀案4夜航西飞5洗澡【最近想看的电影】1海蒂与爷爷2调音师3东方快车谋杀案4切尔诺贝利5蹡蹡三人游
深海suke
·
2023-12-21 17:57
数据仓库理论
修改记录时间内容2020年9月13日第一次发布推荐书:《数据仓库工具书》(纯理论)、
大数据之路
-阿里巴巴大数据实践、一、数仓相关概念数据仓库:英文DataWareHouse,数据仓库是面向主题,为分析数据而设计的
宇宙中的Philip
·
2023-11-21 17:43
数仓理论
数据仓库
大数据
hive
大数据之路
-Hadoop-概述(2)
Hadoop集群首先,区分下集群和分布式的概念。分布式结构就是将一个完整的系统,按照业务功能,拆分成一个个独立的子系统。比如我们在做一个项目时,团队中按角色可分为项目经理、产品经理、开发、测试等,不同角色做不同的事,互相之间也可能存在沟通和协作。集群,相对于单机而言,解决的都是同一个问题。以上一个例子来说,单机好比团队中只有一个测试,一个人做了所有的测试工作。因此扩招了2个测试人员,可以把这个3个
胡萝卜土豆
·
2023-11-19 10:27
大数据
hadoop
big
data
云计算
阿里巴巴
大数据之路
——数据技术篇
一、整体架构从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层数据采集层:以DataX为代表的数据同步工具和同步中心数据计算层:以MaxComputer为代表的离线数据存储和计算平台数据服务层:以RDS为代表的数据库服务(接口或者视图形式的数据服务)数据应用层:包含流量分析平台等数据应用工具二、数据采集(离线数据同步)数据采集主要分为日志采集和数据库采集。日志采集暂略(参考书籍原文)。
weixin_30730151
·
2023-11-11 05:39
大数据
数据库
阿里巴巴
大数据之路
阿里巴巴数据平台总共分为四个基本层级:数据采集层:数据采集包括日志采集和数据库数据同步两部分,其中日志采集包括:Aplus.JS是Web端日志采集技术方案;UserTrack是APP端日志采集技术方案。数据计算层:阿里巴巴的数据计算层包括两大体系:数据存储及计算云平台(离线计算平台MaxCompute和实时计算平台StreamCompute)和数据整合及管理体系(内部称之为“OneData”)。从
xiaokaiabcde
·
2023-11-09 10:07
大数据
大数据开发
大数据学习
阿里巴巴
大数据之路
-日志采集
数据采集作为大数据体系中的第一环节,对如何全面、高性能、规范完成海量数据的采集,并将其传输到大数据平台。1.浏览器的页面日志采集1.1页面浏览日志采集流程页面浏览日志是最基础的互联网日志,其中页面浏览量(PageView,PV)和访客数(UniqueVisitors,UV)是一切互联网数据分析得以展开的基础和前提。上图是一个典型的网页浏览过程,你认为从哪一个结点开始采集日志最为合适?答案是④,首先
¤睿
·
2023-10-31 05:50
大数据之路
大数据
大数据之路
系列之flink(12)
大数据之路
系列之flink——快速上手快速上手
大数据之路
系列之flink——快速上手一、flink是什么二、flink的应用场景三、数据处理架构第一代、事务处理oltp第二代.
居高声自远,非是藉秋风
·
2023-10-28 21:31
大数据
spark
flink
大数据
hadoop
阿里
大数据之路
笔记
第二章笔记数据模型篇第八章建模综述为什么需要数据建模:性能:快速查询所需要的数据,减少数据IO吞吐率成本:降低存储和计算成本效率:提高数据使用效率质量:改善数据统计口径的不一致性维度模型设计步骤:选择要分析决策的业务过程:单业务过程,例:交易的支付,退款;事件状态,例:当前账户余额;业务事件组成的业务流程选择粒度:细分的程度,粒度是维度的组合.识别维表:设计维表,维度属性选择事实:确定分析需要衡量
帝乙岩
·
2023-10-28 11:20
大数据之路
读书笔记-16数据应用
大数据之路
读书笔记-16数据应用全球知名咨询公司麦肯锡称:“数据,已经透到当今每一个行业和业务职能领域,成为重要的生产要素。
潘小磊
·
2023-10-12 05:01
大数据之路读书笔记
大数据
人工智能
数据挖掘
《
大数据之路
》读书笔记:建模综述
《
大数据之路
-阿里巴巴大数据实践》,作者阿里巴巴数据技术及产品部,第八章“大数据领域建模综述”阿里的这本书之前又翻看过,很多实践是很棒的,也学习应用过一些规范,最近比较闲(失业在家),整理一下。
橘猫吃不胖
·
2023-10-11 03:35
Java
大数据之路
--HDFS详解(3)--基本命令
HDFS(分布式文件存储系统)--基本命令目录HDFS(分布式文件存储系统)--基本命令一、常见命令二、其他命令一、常见命令命令说明hadoopfs-mkdir/park在hdfs的根目录下,创建park目录hadoopfs-ls/查看hdfs根目录下有哪些目录hadoopfs-put/root/1.txt/park将linux操作系统root目录下的1.txt放在hdfs的park目录下hado
Normcorer
·
2023-09-23 08:20
Hadoop
数仓规范随记
数仓分层以《
大数据之路
:阿里巴巴大数据实践》中五层(ods/dwd/dws/dim/ads)分类为基础划分,有序列表记录是分层大类,分层大类下的无需列表是分层小类或者说真正落地的:ods:近源层/贴源层
mizuhokaga
·
2023-09-20 00:56
总结
大数据
《阿里
大数据之路
》读书笔记:第三章 数据同步
第三章数据同步数据同步技术含义:不同系统间的数据流转,有多种不同的应用场景。应用场景:同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份主系统与子系统之间的数据更新不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步数据从业务系统同步进入数据仓库数据从数据仓库同步进入数据服务或数据应用一、数据同步基础源业务系统的数据类型:关系型数据库的结构化数据:MySQL、Orac
蓦然_
·
2023-09-10 17:14
数据仓库
大数据
数据仓库
JAVA CV工程师学习
大数据之路
---linux基本环境配置
先提供一些基本的软件链接,方便大家使用VMware、ISO文件、XManager链接:https://pan.baidu.com/s/1uwOBag5QCsSFqt3c2dz56A提取码:w2he安装流程和创建虚拟机过程直接跳过,直接到配置网络步骤,这儿采用NAT方式进行配置1.主要是修改/etc/sysconfig/network-scripts/ifcfg-enoXXX文件,因为文件名不一定是
咸鱼哥哥
·
2023-08-25 13:04
大数据
java学习大数据
hadoop
linux
java
环境
安装
上网
《
大数据之路
》阅读笔记--数据同步
数据同步同步方式主要分为三种:直连同步、数据文件同步和数据库日志解析同步。直连同步直连同步是指直接使用ODBC/JDBC接口的方式直接连接数据库来拉取数据,这种方式对源系统的性能影响较大,不适合大数据量的情况。数据文件同步数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如FTP服务器传输到目标系统后,加载到目标数据库系统中。当源数据来自多个不同的
杜小瑞
·
2023-08-15 05:13
大数据
大数据
big
data
《
大数据之路
》阅读笔记--数据采集
数据采集浏览器页面日志采集浏览器页面采集主要包括页面浏览日志采集以及页面交互日志采集两部分。页面浏览日志主要包括:页面浏览量(PageView,PV)和访客数(UniqueVisitors,UV)。页面浏览日志采集流程基本思路是在html文档内适当位置增加一个日志采集节点,当浏览器解析到这个节点时,将自动触发一个特定的http请求到日志采集服务器。页面交互日志采集主要流程如下:1、业务方在元数据管
杜小瑞
·
2023-08-15 05:13
大数据
数据仓库
大数据
big
data
Kafka基础理论理解,欲走
大数据之路
必铺石阶,行走的kafka!2018-08-14
大数据编程理解,实际上是件很困难的事,大数据需要掌握的技能太多了,get到的技能点也实际更多!kafka作为一个大数据的必备内容,可以作为大数据的基本标志,下面我们将介绍如何学习大数据简介#概念:消息中间件(消息系统)//消息系统分类:点对点消息队列(peer-to-peer)替换高清大图发布/订阅消息队列消费者在消费时,是通过pull主动从broker中拉取数据的#作用:缓存地带#消息系统适用场
飞上天的猫神
·
2023-08-03 00:48
《
大数据之路
》
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标,继承原子指标的数据域,与修饰词的数据域无关例如:原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
DouMiaoO_Oo
·
2023-07-26 16:01
大数据
数据库
人工智能
《
大数据之路
》
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标,继承原子指标的数据域,与修饰词的数据域无关例如:原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
DouMiaoO_Oo
·
2023-07-26 16:59
大数据
数据库
人工智能
《阿里
大数据之路
》研读笔记(3)事实表
不理解可以先看看这个例子例子里的start_time可以看成下单时间end看成确认收货时间这个例子中累计快照事实表和拉链表类似图解HIVE累积型快照事实表_累积快照事实表_小基基o_O的博客-CSDN博客累计快照事实表我的理解是根据上面的例子就是一行代表多个业务过程每个关键的业务过程都有对应的时间字段(这样方便计算一些需求)它跟多事务事实表的区别在于累计快照事实表只有一行是记录这个子订单的所以有新
后季暖
·
2023-07-15 02:54
笔记
《阿里
大数据之路
》研读笔记(2)维度表
前面的笔记地址:《阿里
大数据之路
》研读笔记(1)_后季暖的博客-CSDN博客规范化和反规范化总结就是规范化让总的单一维度变成多个维度然后每个维度就是一张表这样适合OLTP可以参考三范式这样是为了减少冗余比如一个商品有多个类目
后季暖
·
2023-07-15 02:24
笔记
《阿里
大数据之路
》读书笔记:第一章 总述
阿里巴巴大数据系统体系架构图阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。一、数据采集层阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。数据来源主要有两部分:业务数据:主要存在数据库中日志数据:主要来自于日志文件日志采集技术:Aplus.JS:Web端日志采集技术方案UserTrack:APP端日志采集技术方案消息
蓦然_
·
2023-06-18 14:38
数据仓库
大数据
数据仓库
《
大数据之路
:阿里巴巴大数据实践》第三篇 数据管理篇-读书笔记
目录12.元数据12.1元数据概念12.1.1元数据定义12.1.2元数据价值12.1.3统一元数据体系建设12.2元数据应用12.2.1DataProfile12.2.2元数据门户12.2.3应用链路分析12.2.4数据建模12.2.5驱动ETL开发13.计算管理13.1系统优化13.2任务优化13.2.1Map倾斜13.2.2Join倾斜13.2.3Reduce倾斜14.存储成本管理14.1数
程序员学习圈
·
2023-06-17 02:43
#
数据中台
数据仓库
数据中台
大数据之路
书摘:走近大数据——从阿里巴巴学习大数据系统体系架构
文章目录1.数据采集层2.数据计算层3.数据服务层4.数据应用层在大数据时代,人们比以往任何时候更能收集到更丰富的数据。但是如果不能对这些数据进行有序、有结构地分类组织和存储,如果不能有效利用并发掘它,继而产生价值,那么它同时也成为一场“灾难”。无序、无结构的数据犹如堆积如山的垃圾,给企业带来的是令人咋舌的高额成本,给数据采集、存储和计算都带来了极大的挑战。如何有效地满足来自员工、商家、合作伙伴等
TracyCoder123
·
2023-06-16 19:02
大数据
大数据
架构
数据仓库(07)数仓规范设计
规范设计在这里取《
大数据之路
:阿里巴巴大数据实践》中的定义,这里记录一下本人对这一块自己的理解。
·
2023-06-15 15:36
【
大数据之路
7】数据采集工具 Flume 的使用
数据采集工具Flume的使用1.数据采集工具产生背景2.Flume简介3.Flume重要概述1.Flume体系架构2.Flume三大核心组件1.Event2.Client3.Agent1.Agent之Source2.Agent之Channel3.Agent之Sink3.Flume经典部署方案1.单Agent采集数据2.多Agent串联3.多Agent合并串联4.多路复用4.Flume案例
程序员胖五
·
2023-06-15 03:21
大数据
flume
java
数据库
数据管道
【
大数据之路
9】任务调度工具 Azkaban
任务调度工具Azkaban1.Azkaban概述1.为什么需要工作流调度器2.工作流调度实现方式3.常见工作流调度系统4.各种调度工具对比5.Azkaban与Oozie对比6.Azkaban介绍2.Azkaban基本使用1.进入MySQL创建azkaban数据库并导入数据2.创建SSL配置3.修改配置文件4.配置azkaban的环境变量5.启动并访问azkaban3.Azkaban应用案例1.Co
程序员胖五
·
2023-06-15 03:21
大数据
分布式
阿兹卡班
azkaban
任务调度
【
大数据之路
8】数据迁移工具 Sqoop 的使用
数据迁移工具Sqoop1.Sqoop概述2.Sqoop基本命令1.共有参数2.普通操作命令3.导入导出命令导入1:导入MySQL数据库中的表数据到hdfs中导入2:导入MySQL数据库中的表数据到Hive中导出1:导出hdfs数据到MySQL导出2:导出Hive数据到MySQL4.导入导出其他案例1.导入MySQL数据到HBase2.导出HBase数据到MySQL5.Sqoop导出到MySQL乱码
程序员胖五
·
2023-06-15 03:50
大数据
sqoop
数据迁移
RDBMS
MySQL
【
大数据之路
1】Hadoop 入门
1.Hadoop入门1.大数据概述1.大数据相关说明2.Hadoop及大数据生态圈3.Hadoop核心组件4.Hadoop生态圈5.集群安装模式6.Hadoop运行模式7.Hadoop工作流程8.Hadoop的推行策略9.知识点2.Hadoop启动与服务名1.Hadoop(HDFS/YARN)启动2.HDFS和YARN的服务种类1.大数据概述1.大数据相关说明大数据由来
程序员胖五
·
2023-06-13 18:13
大数据
hadoop
分布式
【
大数据之路
6】分布式 NoSQL 数据库 HBase
6.分布式NoSQL数据库HBase1.HBase概述1.SQL与NoSQL简介2.HBase简介3.HBase核心设计1.相关说明2.HBase核心设计思路3.HBase设计缘由4.HBase存储数据原理1.HBase表结构存储2.行键rowkey3.列簇ColumnFamily4.时间戳timestamp5.存储单元Cell2.HBase操作1.Shell命令行操作2.JavaAPI操作1.操
程序员胖五
·
2023-06-10 17:42
数据库
hbase
大数据
nosql数据库
【
大数据之路
5-3】离线数据仓库(Hive 搭建)
离线数据仓库(Hive搭建)1.数据仓库概述1.数据仓库概念2.两种数仓构建理念1.BillInmon数仓2.RalphKimball数仓3.CIF架构、Inmon与Kimball建模总结1.CIF架构2.两种建模的异同点2.数仓构建流程1.构建流程2.分层解释1.ODS层2.DWD层3.DWS层4.ADS层3.数仓建模基本理论1.建模相关1.建模目标
程序员胖五
·
2023-06-09 11:32
数据仓库
大数据
hive
离线数仓
分层建设
【
大数据之路
5-1】数据仓库工具 Hive
5.数据仓库工具Hive1.Hive概述1.Hive核心概念2.Hive优势3.Hive特点4.Hive和RDBMS(关系型数据库)的对比【面试点】5.Hive架构1.用户接口2.内部架构组件3.底层支撑Hadoop4.元数据MetaStore5.执行流程6.Hive的数据存储1.Hive数据结构1.相关说明2.Hive文件存储默认目录3.分区和分桶1.分区表2.分桶表</
程序员胖五
·
2023-06-09 11:02
大数据
hive
hadoop
【
大数据之路
5-2】Hive 全调优
Hive全调优1.调优概述2.调优具体细节1.Hive建表设计层面1.利用分区表优化2.利用分桶表优化3.选择合适的文件存储格式4.选择合适的压缩格式2.HQL语法和运行参数层面1.查看Hive执行计划2.列裁剪3.谓词下推4.分区裁剪5.合并小文件6.合理设置MapTask并行度7.合理设置ReduceTask并行度8.Join优化9.启用MapJoin10.Join数据倾斜优化11.CBO优化
程序员胖五
·
2023-06-09 11:57
大数据
hive
hadoop
调优
数据倾斜
【
大数据之路
4】分布式计算模型 MapReduce
4.分布式计算模型MapReduce1.MapReduce概述1.概念2.程序演示1.计算WordCount2.计算圆周率π3.核心架构组件4.编程流程与规范1.编程流程2.编程规范3.程序主要配置参数4.相关问题1.为什么不能在Mapper中进行“聚合”(加法)?为什么需要“减速器”2.RecordReader的作用5.单词统计案例1.过程分析2.案例编写1.相关说明2.JDK(Java)数据类
程序员胖五
·
2023-06-08 19:45
大数据
大数据
mapreduce
yarn
环形缓冲区
Shuffle
【
大数据之路
3】分布式协调系统 Zookeeper
3.分布式协调系统Zookeeper1.Zookeeper概述1.Zookeeper介绍2.Zookeeper结构/功能【重点】1.文件系统ZNode1.ZNode特点2.ZNode功能3.ZNode介绍【非常重要】2.监听机制3.典型应用场景1.命名服务2.配置管理3.集群管理4.分布式锁5.队列管理2.架构与原理1.Zookeeper架构1.架构概述2.主从架构3.集群角色描述2.集群选主【非
程序员胖五
·
2023-06-08 19:14
大数据
分布式
大数据
java-zookeeper
【
大数据之路
2】分布式文件系统 HDFS
2.分布式文件系统HDFS1.引入HDFS【面试点】2.HDFS概述1.HDFS设计思路2.HDFS架构3.HDFS优缺点3.HDFS操作HDFS读写基准测试1.HDFSShell操作【重点】2.HDFSAPI操作1.访问数据1.获取FileSystem2.文件的遍历3.创建文件夹4.文件的上传5.文件的下载2.合并小文件1.合并小文件上传2.合并小文件下载4.HDFS原理1.HDFS的启动流程【
程序员胖五
·
2023-06-08 19:13
大数据
大数据
hdfs
分布式
hadoop
大数据之路
读书笔记-04离线数据开发
大数据之路
读书笔记-04离线数据开发从采集系统中收集了大量的原始数据后,数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。
潘小磊
·
2023-04-11 11:41
大数据之路读书笔记
大数据
数据库
数据仓库
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他