大数据组件

flink源码系列：RPC通信

这里写目录标题1.本节课目的2.开始本节内容2.1.RPC概念3.2.大数据组件常见的RPC实现技术3.3.Pekko（Akka）3.3.1.Akka、Pekko基本概念3.3.2.PekkoDemo事例

Direction_Wind·2025-07-24 12:39

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

TTBIGDATA·2025-06-20 06:37

【线上直播】分布式消息队列Kafka

讲师：刘镇砚讲师简介：游戏公司资深大数据SRE工程师，数据中心基础服务负责人，专注于大数据组件基础优化以及平台建设服务化等工作。

chenvsjane2009·2025-06-18 19:07

【Elasticsearch】Elasticsearch 在大数据生态圈的地位 & 实践经验

Elasticsearch在大数据生态圈的地位&实践经验1.Elasticsearch的优势1.1Elasticsearch解决的核心问题1.1.1传统方案的短板1.1.2Elasticsearch的解决方案1.2与大数据组件的对比优势

G皮T·2025-06-10 03:44

【备赛指南】华为ICT大赛实践赛云赛道08

（建议首先阅读专栏首篇文章——【备赛指南】华为ICT大赛实践赛云赛道01，之后再逐步阅读后续内容）一、大数据组件关系二、大数据的概述1.

淵_ken·2025-05-27 14:43

【大数据技术-HBase-关于Hmaster、RegionServer、Region等组件功能和读写流程总结】

Hmaster的作用负责命名空间、表的创建和删除等一些DDL操作、region分配和负载均衡，并不参与数据读写，相比与其他大数据组件，如hdfs的namenode，在hbase中，Hmaster的作用是比较弱化的

guoyongzhuang·2025-05-15 14:09

大数据学习（75）-大数据组件总结

大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的

viperrrrrrr·2025-03-21 22:42

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

于是人们提出了“不共享任何东西”（share-nothing）的分布式架构。从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构，都是以分布式作为系统架构的基本形态的。我们已经知道，Flink就是一个分布式的并行流处理系统。简单来说，它会由多个进

2401_84181942·2025-03-09 03:39

华为MRS产品组件

MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。

QianJin_zixuan·2025-02-27 06:59

大数据生态圈基础组件安装步骤

摘要：大数据生态圈基础组件安装步骤关键词：大数据、基础组件、运维、安装步骤整体说明大数据生态圈有很多组件，而且需要多台机器才能良好的运行，以下从机器准备、环境准备、组件安装顺序的去完成大数据组件的安装。

鹏说大数据·2025-02-08 06:26

CDH角色迁移和硬盘扩容

迁移要求HDFS数据不丢失Hive元数据不丢失无临时过渡服务器不能影响用户计算使用CDH5.11.0只能使用centos6.5-6.9x版本大数据组件角色迁移ClouderaManagementService

专注大数据的Lyer·2025-02-05 09:56

大数据组件ClickHouse介绍（场景、优劣势、性能）

大数据组件ClickHouse介绍简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能简介clickhouse是一个高性能的列式存储分析数据库管理系统，

坚持是一种态度·2025-01-31 09:46

Lambda架构

首先我们来看一个典型的互联网大数据平台的架构，如下图所示：在这张架构图中，大数据平台里面向用户的在线业务处理组件用褐色标示出来，这部分是属于互联网在线应用的部分，其他蓝色的部分属于大数据相关组件，使用开源大数据产品或者自己开发相关大数据组件

leveretz·2025-01-26 22:54

有了TiDB，是否还需要“散装”大数据组件？

有了TiDB，是否还需要“散装”大数据组件？

狮歌~资深攻城狮·2025-01-22 15:02

大数据组件之Azkaban简介

一、Azkaban介绍1.1背景一个完整的大数据分析系统，必然由很多任务单元(如数据收集、数据清洗、数据存储、数据分析等)组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：如何定时调度某个任务？如何在某个任务执行完成后再去执行另一个任务？如何在任务失败时候发出预警？......面对这些问题，工作流调度系统应运而生。Azkaban就是其中之一。1.2功能Azk

努力的小星星·2025-01-21 22:20

【赵渝强老师】基于大数据组件的平台架构

在了解了大数据各个生态圈所包含的组件及其功能特性后，就可以利用这些组件来搭建一个大数据平台从而实现数据的存储和数据的计算。下图展示了大数据平台的整体架构。视频讲解如下：大数据平台的Lambda架构【赵渝强老师】大数据平台的Lambda架构大数据平台的Kappa架构【赵渝强老师】大数据平台的Kappa架构大数据平台的总体架构可以分为五层，分别是：数据源层、数据采集层、大数据平台层、数据仓

赵渝强老师·2024-08-30 16:07

Bigtop 从0开始(上)

本文作者：蔡佳良原文阅读：【巨人肩膀社区·博客·分享】Bigtop从0开始BigTop的应用场景：1.BigTop通过提供预配置的Docker镜像，极大简化了在不同操作系统上编译大数据组件的rpm或deb

atbigapp.com·2024-08-23 23:11

hadoop 分布式集群安装与原理

对很多人来说，学习大数据都止步于集群搭建，即使是那些工作过很多年的JAVA程序员也不例外，我们分享一套能让您轻松完成集群搭建的方法，包括Hadoop的源码编译、企业级环境安装与配置和常用大数据组件的基本原理

海牛大数据_青牛老师·2024-02-13 12:44

我的创作纪念日

当时，作为一名来自南京的大二大数据专业学生，我被分配到了一个大型分布式系统测试团队中，亲身经历了从零构建测试框架、设计复杂测试场景到验证大数据组件性能的过程。这份实践让我意识到，软件测试不仅是

yueqingll·2024-02-11 14:14

Elasticsearch: 非结构化的数据搜索

很多大数据组件在快速原型时期都是Java实现，后来因为GC不可控、内存或者向量化等等各种各样的问题换到了C++，比如zookeeper->nuraft(https://www.yuque.com/treblez

SakamataZ·2024-02-08 22:48

大数据组件部署下载链接

Hadoop2.7下载连接:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/Hive2.3.2下载连接：http://archive.apache.org/dist/hive/hive-2.3.2/Zookeeper下载连接：https://archive.apache.org/dist/zookeeper/zookeeper-3.

运维道上奔跑者·2024-02-04 05:13

大数据组件笔记 -- Spark 入门

文章目录一、简介二、Spark运行模式2.1本地模式2.2集群角色2.3Standalone模式2.4Yarn模式2.5总结三、WordCount开发案例实操一、简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark历史Spark虽然有自己的资源调度框架，但实际中常用Yarn来进行统一资源管理。Spark框架Spark内置模块SparkCore：实现了Spark的基本功能

L小Ray想有腮·2024-02-03 15:53

循序渐进大数据组件之--Flink

最近学习了Flink，做一些小的总结：（预计这个我会出一个系列）先来看看Flink是什么：（出自官网）ApacheFlink是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。ApacheFlink功能强大，支持开发和运行多种不同种类的应用程序。它的主要特性包括：批流一体化、精密的状态管理、事件时间支持以

Alex_81D·2024-02-03 15:20

如何接手一个大数据项目

以下是个人的一些思考总结：了解一个大数据系统，我认为需要从以下几个方面入手：宏观方面：1.了解系统的整体架构和技术栈：需要了解系统中使用的技术栈，包括各种大数据组件和工具，例如Hadoop、Spark、

Mmj666·2024-01-30 15:19

FlinkCdc--Debezium实现Kafka实时监控mysql binlog日志

不管是什么大数据组件大部分都分单机和集群模式，这次我配置的是kafka集群监控mysqlbinlog日志一.Zookeeper和Kafka集群部署我的服务器是三台节点aliyun-bigdata-01aliyun-bigdata

chenzhihao·2024-01-29 09:08

大厂大数据面试题收录（1）

6.在大数据组件中，你们一般用的资源管理框架是哪个？7.那你能谈一下yarn的基础架构及调度流程吗？8.Hivesql到MapReduce转化的流程清楚吗？

后季暖·2024-01-23 11:49

HBase集群写入出现大量毛刺排查

大家好，我是K&D，一名10年以上大数据架构&研发经验从业者，目前主要从事云原生大数据方向设计，擅长云原生技术、数据架构、数据平台构建、大数据组件性能调优问题现象查看监控，业务请求量正常，但是server

KubeData·2024-01-17 02:12

一文了解数据库vs数据仓库vs数据湖

大家好，我是K&D，一名10年以上大数据架构&研发经验从业者，目前主要从事云原生大数据方向设计，擅长云原生技术、数据架构、数据平台构建、大数据组件性能调优以下是本文目录：什么是数据库？

KubeData·2024-01-17 02:11

程序员如何构建自己的「护城河」

大家好，我是K&D，一名10年以上大数据架构&研发经验从业者，目前主要从事云原生大数据方向设计，擅长云原生技术、数据架构、数据平台构建、大数据组件性能调优关注我，持续分享更多技术干货0.何为「护城河」前段时间

KubeData·2024-01-17 02:41

一文详细了解大数据离在线混部架构模型

离在线混部背景介绍随着云原生技术的蓬勃发展，在整个行业内都在探索大数据组件云原生化从而实现资源更精细化的使用，PS：关于云原生和大数据结合之后文章单独来写），在这其中就以大数据离在线混部技术为代表首先尝试将资源进行波峰波谷式的进行充分利用

KubeData·2024-01-17 02:09

nifi详细介绍--一款开箱即用、功能强大可靠，可用于处理和分发数据的大数据组件

目录目录一、引言二、NiFi的历史背景介绍三、NiFi是什么？核心特性应用领域四、NIFI入门五、NiFi工作流程六、实际应用场景七、优势总结一、引言NiFi（ApacheNiFi），全名为“NiagaraFiles”，是一款开源的数据集成工具，由Apache软件基金会开发和维护。它是一个易于使用、功能强大且可靠的系统，用于处理和分发数据的大数据数据组件。它以直观的用户界面、可视化的设计和强大的数

大壮001·2024-01-15 23:30

Flink（十二）【容错机制】

前言最近已经放假了，但是一直在忙一个很重要的自己的一个项目，用JavaFX和一个大数据组件联合开发一个功能，也算不枉我学了一次JavaFX，收获很大，JavaFX它作为一个GUI开发语言，本质还是Java

让线程再跑一会·2024-01-14 13:22

如何构建大数据指标分析系统

技术的第一性原则是解决问题，不同的技术方案都能实现同样的需求，那在公司原有技术架构上，如何设计技术架构，尽量用最少的大数据组件解决多种应用场景问题。

i7杨·2024-01-04 03:37

2024年统一大数据应用场景的技术

前言：中间件/大数据组件的出现是为了解决特定的应用场景。

i7杨·2024-01-04 03:07

hadoop 3.3.3集群安装部署

前言大数据开发涉及的组件和方向比较多，由于之前项目使用的都是成熟的大数据产品CDH或者HDP，里面封装了多个大数据组件，对于企业而言，无论是体验还是维护都比较友好，但对于开发人员来说，太过于集成，反而不太好了解各个组件具体的配置细节

以茉萱·2023-12-24 02:18

【基础知识】大数据组件YARN简述

YARN是一个分布式的资源管理系统。YARN是Hadoop系统的核心组件，主要功能包括负责在Hadoop集群中的资源管理，负责对作业进行调度运行以及监控。ResourceManager负责集群的资源管理与调度，为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的Master节点上，HA集群部署在EMR的多个Master节点上，保证了高可用性。NodeManager负责节点的资源管理、

偏振万花筒·2023-12-23 22:28

【基础知识】大数据组件HBase简述

HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。只是面向列，不是列式存储mysqlvshbasevsclickhouseHMaster负责HBase中RegionServer的管理，包括表的增删改查；RegionServer的负载均衡，Region分布调整；Regi

偏振万花筒·2023-12-23 22:54

Kylin基础知识点解析与应用探索

：学习内容：学习时间：学习产出：Kylin简介什么是KylinKylin的历史和发展Kylin在大数据领域的地位和作用Kylin架构Kylin的组成部分和模块Kylin的工作原理和流程Kylin与其他大数据组件的关系和集成

阿猫的故乡·2023-12-23 04:18

【基础知识】大数据组件HDFS简述

HDFS是经典的Master和Slave架构，每一个HDFS集群包括一个NameNode和多个DataNode。NameNode管理所有文件的元数据信息，并且负责与客户端交互。DataNode负责管理存储在该节点上的文件。每一个上传到HDFS的文件都会被划分为一个或多个数据块，这些数据块根据HDFS集群的数据备份策略被分配到不同的DataNode上，位置信息交由NameNode统一管理。NameN

偏振万花筒·2023-12-18 22:06

Flume+Kafka+Storm+Redis构建大数据实时处理系统

如何一步步构建我们的实时处理系统（Flume+Kafka+Storm+Redis）实时处理网站的用户访问日志，并统计出该网站的PV、UV将实时分析出的PV、UV动态地展示在我们的前面页面上如果你对上面提及的大数据组件已经有所认识

Summer_1981·2023-12-15 06:16

大数据组件sqoop部署安装与测试练习

环境说明10.176.2.101master10.176.2.103zjx0310.176.2.105zjx05cent-os6.5zookeepercdh3.4.5hadoopapache2.7.7mysql5.17jdk1.8.191sqoop1.4.7(2.x不稳定,使用1.x)sqoop安装本人将sqoop部署在master机器上，mysql安装在zjx03上1下载sqoop应用包mkdi

zwb_jianshu·2023-12-15 06:05

【Ambari】HDP单机自动化安装（基础环境和MySQL脚本一键安装）

目录一、版本信息1.1大数据组件版本1.2ApacheComponents1.3Databases支持版本二、安装包上传三、服务器基础环境配置3.1配置修改3.2服务器环境配置3.3MySQL数据库安装四

阿龙先生啊·2023-11-27 11:51

大数据组件图谱

大数据组件图谱文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台文件系统HDFSHadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统

饮水思源09·2023-11-25 07:40

实时监控：基于流计算 Oceanus ( Flink ) 实现系统和应用级实时监控

作者：吴云涛，腾讯CSIG高级工程师本文描述了如何使用腾讯云大数据组件来完成实时监控系统的设计和实现，通过实时采集并分析云服务器（CVM）及其App应用的CPU和内存等资源消耗数据，以短信、电话、微信消息等方式实时反馈监控告警信息

腾讯云大数据·2023-11-25 06:41

利用 Apache Ranger 管理 Amazon EMR 中的数据权限

在大数据领域，ApacheRanger是最受欢迎的授权选择之一，它支持所有主流大数据组件，包括HDFS、Hive、HBase、Trino等组件。

亚马逊云开发者·2023-11-23 14:43

Kerberos安全认证-连载11-HBase Kerberos安全配置及访问

HBaseShell操作HBase5.JavaAPI操作HBase技术连载系列，前面内容请参考前面连载10内容:Kerberos安全认证-连载10-HiveKerberos安全配置及访问_IT贫道的博客-CSDN博客大数据组件

IT贫道·2023-11-22 04:58

如何应对大数据分析工程师面试Spark考察，看这一篇就够了

Spark作为大数据组件中的执行引擎，具备以下优势特性。高效性。内存计算下，Spark比MapReduce快100倍。Spark使用

AI科技大本营·2023-11-20 18:22

大数据组件spark hadoop hive简单介绍

spark单机启动spark-shell集群启动/usr/local/spark-2.4.5-bin-hadoop2.7/sbin/start-all.sh提交任务1.打包python环境:whereispython#/usr/local/python3/zip-rpy_env.zippy_env2.spark提交参考：pyspark打包依赖包&使用python虚拟环境notebook集成：htt

转身之后才不会·2023-11-19 23:29

奇瑞金融业务面一面

3.标签体系建设二、面试总时长：55分钟三、面试的的具体内容如下：1.自我介绍2.讲一下你是用过的大数据组件3.介绍一下目前单位的数据流向，以及用到哪些技术4.介绍一下目前单位数仓的架构？

柳小葱的狂热粉·2023-11-19 12:07

开源大数据组件

集群：DataSphereStudiohttps://gitee.com/WeBank/DataSphereStudio?utm_source=alading&utm_campaign=repoBI报表：DataEasehttps://github.com/dataease/dataease集群管理HDP/CDH/CDP–Todo

刘金宝_Arvin·2023-11-19 01:33

推荐频道