大数据计算第4页

Spark基础知识梳理

目录一、基础简介二、spark四大特点1、速度快2、易使用3、通用性强4、运行方式三、spark框架模块四、运行方式五、spark的架构角色六、总结一、基础简介Spark是一种通用的大数据计算框架，使用了内存内运算技术

Sheenky·2023-10-07 17:25

腾讯云轻量和CVM有啥区别？怎么选择服务器配置？

轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境，云服务器CVM适合更复杂如高并发网站、大数据计算、机器学习等复杂应用场景。

暴富程序员·2023-10-07 07:11

【FanOne的博客导航】希望你能喜欢这里 | 欢迎光临~

FanOne'sBlogGo语言七天入门Go开源宝藏Go语言实战项目Go语言与区块链以太坊智能合约超级账本Fabric青年大学习提醒脚本机器学习大数据基础实践大数据计算数据采集计算机网络(谢希仁教材第七版

小生凡一·2023-10-06 22:42

BigData导论

NoSQL数据库系统BigTable2006年，DougCutting（lucene的作者）根据论文原理初步实现了类似GFS和MapReduce的功能，开发出了Hadoop,包括分布式文件系统HDFS和大数据计算引擎

Youth_C&B·2023-10-04 14:41

Spark性能优化指南——基础篇

假如这排版不好，请移步：Spark性能优化指南——基础篇一、背景在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。

一条水里的鱼·2023-10-04 00:57

2023腾讯云轻量应用服务器和普通服务器有什么区别？

轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境，云服务器CVM适合更复杂如高并发网站、大数据计算、机器学习等复杂应用场景。

gla2018·2023-10-03 16:01

计算机毕业设计Python+Spark+LSTM中药推荐系统中药大数据可视化中药数据分析中药可视化系统中药知识图谱

开发技术前端：vue.js、echarts后端：springboot、vue.js数据库：mysql大数据计算框架：spark、hadoop算法(机器学习、人工智能)：推荐算法(协同过滤算法，基于用户、

计算机毕业设计大神·2023-10-03 04:32

Spark性能优化指南

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。

夜古诚·2023-10-03 00:58

Scala

目前Spark是新一代的内存型大数据计算框架，是目前大数据技术生态圈中非常主流的一门技术。

_Levi__·2023-09-30 00:05

Hadoop期末复习

2、大数据计算模式及其代表产品批处理计算：MapReduce、Spark流计算：Storm、Flume图计算：PowerGraph查询分析计算：Hive、Cassandra3、云计算、大数据和物联网的联系云计算为大数据提供技术基础

在屋顶藏着李的哥·2023-09-27 07:15

Spark大数据计算框架知识总结

文章目录Spark简介Spark特点Spark架构Spark实例进程Driver驱动器Executor执行器Spark运行模式Local模式Standalone模式Yarn模式RDD分布式数据集RDD简介RDD拥有的属性RDD特点1.分区2.只读3.依赖4.缓存5.CheckPointRDD编程模型Spark简介Spark是专为大规模数据处理而设计的计算引擎。Spark拥有HadoopMapRed

iceburg-blogs·2023-09-26 10:22

数据治理-数据仓库环境

其中包括：源系统；（CRM\账务系统或者DaaS服务、网页内容和任何大数据计算结果）数据集成；（ETL\数据虚拟化以及将数据转换为通用格式和位置的其他技术）

世润·2023-09-19 07:41

如何每天多出两三个小时的生命

2、很少看抖音了抖音也是一个能量黑洞，一打开立刻就给你推送大数据计算出来的你可能感兴

自在书舍·2023-09-15 12:19

大数据Spark性能优化指南基础

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。

金光闪闪耶·2023-09-11 21:31

MOOC网站日志分析

MOOC网站日志分析认证可以帮助学员掌握如何收集用户访问日志，如何对访问日志进行分析，如何利用大数据计算服务对数据进行处理，如何以图表化的形式展示分析后的数据。

xmvip01·2023-09-10 18:41

数据中台建设方案-基于大数据平台

数据中台建设方案-基于大数据平台-1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。

FRDATA1550333·2023-09-08 05:08

Spark_SparkSQL_broadcast join不生效问题

问题与排查过程大数据计算通常会存在大表join小表的情况，如果相对较小的表允许广播到各个executor的话，可以使用广播方式mapjoin，这样还可以避免数据倾斜。

高达一号·2023-09-06 16:51

京东Spark自研Remote Shuffle Service在大促中的应用实践

近年来，大数据技术在各行各业的应用越来越广泛，Spark自UCBerkeley的AMP实验室诞生到如今3.0版本的发布，已有十年之久，俨然已经成为大数据计算领域名副其实的老将。

merrily01·2023-09-06 02:13

【超级详细论文解说与代码实现】mit 6.824 分布式系统实现 Spring 2023—lab1

论文回顾mapreduce架构严格来讲，MapReduce是一种分布式计算模型，用于解决大于1TB数据量的大数据计算处理。

【阿冰】·2023-09-04 18:39

大数据Flink简介与架构剖析并搭建基础运行环境

文章目录前言Flink简介Flink集群剖析Flink应用场景Flink基础运行环境搭建Docker安装docker-compose文件编写创建并运行容器访问Flinkweb界面前言前面我们分别介绍了大数据计算框架

小沈同学呀·2023-08-30 13:28

实训笔记8.28

实训笔记8.288.28笔记一、大数据计算场景主要分为两种1.1离线计算场景1.2实时计算场景二、一般情况下大数据项目的开发流程2.1数据采集存储阶段2.2数据清洗预处理阶段2.3数据统计分析阶段2.4

cai-4·2023-08-29 22:31

《探花交友》之开篇

《探花交友》功能介绍项目介绍工程搭建短信验证码实现用户登录功能前后端开发视频及相关资源领取Q作者1、功能介绍探花交友是一个陌生人的在线交友平台，在该平台中可以搜索附近的人，查看好友动态，平台还会通过大数据计算进行智能推荐

~叫兽啊·2023-08-29 15:31

第97篇大数据所带来的

前言：几乎所有APP都在用大数据计算着，获取我们的隐私除了获取隐私的不道德外，更可怕的是这个过程，让人类渐渐失去客观判断，更以为整个世界以为的我们，构建一个不自知的世界（也可以说，逐渐变成机器人，变成大数据想让你成为的人

乐活小仙·2023-08-28 16:12

饿了么大数据计算引擎实践与应用

饿了么BDI-大数据平台研发团队目前共有20人左右，主要负责离线&实时Infra和平台工具开发。其中6人的离线团队需要维护大数据集群规模如下：Hadoop集群规模1300+HDFS存量数据40+PB，Read3.5PB+/天，Write500TB+/天14WMRJob/天，10WSparkJob/天，25WPresto/天此外还需要维护Hadoop、Spark、Hive、Presto等组件饿了么内

Alukar·2023-08-27 08:39

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者：张凯@阿里云、陳韋廷@Intel、周渊@Intel简介ApacheCeleborn(Incubating)是阿里云捐赠给Apache的通用RemoteShuffleService，旨在提升大数据计算引擎的性能

·2023-08-24 17:17

Spark调优

数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

鬼古神月·2023-08-21 04:05

Spark 图计算ONEID 进阶版

0、环境信息本文采用阿里云maxcompute的spark环境为基础进行的，搭建本地spark环境参考搭建Windows开发环境_云原生大数据计算服务MaxCompute-阿里云帮助中心版本spark2.4.5

大数据00·2023-08-19 05:09

用于100GB+、TB级大型数据集构建【3】--计算包 cupy简介与测试1

引言：并行计算对于工业大数据计算任务来说是及其重要的。cupy提供了一个很好的计算平台用于矩阵数据在GPU上的处理。本博客对GPU上的cupy并行处理做了简要介绍，后续将进一步对相关内容进行详细探讨。

cnjs1994·2023-08-17 00:26

MaxCompute 发布“物化视图智能推荐”，CU算力节省14%

阿里云MaxCompute在飞天发布时刻推出了“物化视图智能推荐”功能，这一功能的发布将节省CU算力14%，进一步提升了MaxCompute在大数据计算能力方面的领先地位。

·2023-08-16 17:51

Apache Paimon 在同程旅行的实践进展

摘要：本文整理自同程旅行大数据计算组负责人吴祥平，在ApachePaimonMeetup的分享。

·2023-08-15 16:35

终于有一篇讲清楚了什么是Spark

使用简练、优雅的Scala语言编写，借鉴了mapreduce“计算向数据靠拢”的大数据计算优点，同时解决了mapreduce表达能力有限（计算都必须转化成map和reduce两个操作）、磁盘I/O开销大

penguin.AAA·2023-08-14 14:38

Apache Paimon 在同程旅行的实践进展

摘要：本文整理自同程旅行大数据计算组负责人吴祥平，在ApachePaimonMeetup的分享。

Apache Flink·2023-08-13 12:57

边缘计算到区块链，从POW机制到POC机制

从大数据到云计算，从云计算到边缘计算，从边缘计算到区块链，前几篇文章已经给大家粗略的讲解过，边缘计算与区块链相结合，能有相当不错的发挥空间，相辅相成之下会改变整个大数据计算的整体环境。

PoCU共识社区·2023-08-13 07:39

随着时代的发展，健康是现在这个社会普遍关注的对象

共享体检小屋还有一套完善的大数据计算系统可以进行实时推送，会根据体检的情况给用户推荐一些饮食和时间安排上的智能方案，其实体检小屋更像自己私人管家！无时无刻的观察自己的身体状况，这一点我个人

北张轩·2023-08-12 07:24

Hive数据倾斜解决方法总结

数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。

膝盖上拔下的箭·2023-08-11 07:57

腾讯云轻量应用服务器和云服务器有什么区别？

轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境，云服务器CVM适合更复杂如高并发网站、大数据计算、机器学习等复杂应用场景。

aliyunbaike·2023-08-11 03:55

《2023年中国企业数字化转型发展白皮书》发布

导读本报告主要采用市场调查、行业深度访谈、桌面研究等方法，并使用艾媒咨询旗下各大数据计算系统和相关计算模型。

大数据食铁兽·2023-08-10 10:54

Flink

这里目录标题1.简介1.1.大数据计算引擎1.2、Flink特点1.3、流处理框架对比1.4、事件驱动型1.5、Flink技术栈1.6、Flink编程模型2、Flink搭建3、Flink运行架构3.1、

忄凝^·2023-08-10 05:02

四、Yarn

从此Hadoop也从一个单一的大数据计算引擎，成为一个集存储、计算、资源管理为一体的完整大数据平台，进而发展出自己的生态体系，成为大数据的代名

阿文灬·2023-08-04 19:21

奥威BI系统|秒分析，更适合分析大数据

奥威BI系统采用微服务框架，解决因巨大的数据量而拖慢系统，导致系统卡顿、崩溃的问题，同时奥威BI系统也拥有极优秀的大数据计算、分析、可视化展现能力，能够实现亿级数据秒响应

qq_43696218·2023-08-04 17:40

Parquet文件格式解析

介绍Parquet是目前比较流行的大数据文件列存储格式，主流的大数据计算框架都对其有良好的支持，包括spark,hive,impala等。

david'fantasy·2023-08-04 16:27

Parquet文件格式解析

介绍Parquet是目前比较流行的大数据文件列存储格式，主流的大数据计算框架都对其有良好的支持，包括spark,hive,impala等。

javastart·2023-08-04 16:57

大数据中的流计算

流式计算是大数据计算模式之一，之外还有图计算、交互计算，与之常对应出现的批计算，等等…了解流式计算，首先要明确一下数据流的相关背景。

魏小言·2023-08-01 20:15

《大数据开发》Hive

离线大数据计算。可以将结构化的数据文件映射成为一张数据库表。官方文档流程图HiveSql与Sql相比Hive字段类型1.建表三种方式直接建表法：createtablemovi

Steve_Abelieve·2023-08-01 12:40

大数据计算技术架构解析

大数据计算技术大数据计算体系层次1数据应用系统2数据计算处理系统3数据存储系统3.1功能3.1.1数据清洗、抽取和建模3.1.1.1建模3.1.1.1.1概念模型3.1.1.1.2逻辑模型3.1.1.1.3

风吹海洋浪·2023-07-31 17:40

hive存储格式对比

在大数据计算中，一般的行式存储基本不采用3、Rcfile数据按行分块，每块按照列存储，提高查询效率，不允许load方式加载数据，需要insert4、

难得糊涂_不解释·2023-07-31 15:13

Spark系列之Spark的数据倾斜

title:Spark系列第九章Spark的数据倾斜9.1Spark调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

落叶飘雪2014·2023-07-31 15:42

不会编程也能做数据分析？奥威BI系统就这么任性

BI系统有强大的大数据计算分析能力，能在短时间内完成海量数据智能可视化分析，满足大数据时代企业精细化数据分析要求。

qq_43696218·2023-07-28 11:40

HDFS详解

2)大部分大数据计算引擎支持与HDFS的交互2.设计原则1）硬件故障：HDFS中的硬件故障应该是常态，并不是意外。因为一个HDFS可能包含大量带服务器，每个节点可能会存在硬件故障。

weixin_39767869·2023-07-27 11:57

Flink任务优化分享

2.改进思路及实施现在的大数据计算任务是用flink执行的，因此优化的入手

丿灬逐风·2023-07-26 06:34

推荐频道

大数据计算

Spark基础知识梳理

腾讯云轻量和CVM有啥区别？怎么选择服务器配置？

【FanOne的博客导航】希望你能喜欢这里 | 欢迎光临~

BigData导论

Spark性能优化指南——基础篇

2023腾讯云轻量应用服务器和普通服务器有什么区别？

计算机毕业设计Python+Spark+LSTM中药推荐系统 中药大数据可视化 中药数据分析 中药可视化系统 中药知识图谱

Spark性能优化指南

Scala

Hadoop期末复习

Spark大数据计算框架知识总结

数据治理-数据仓库环境

如何每天多出两三个小时的生命

大数据Spark性能优化指南基础

MOOC网站日志分析

数据中台建设方案-基于大数据平台

Spark_SparkSQL_broadcast join不生效问题

京东Spark自研Remote Shuffle Service在大促中的应用实践

【超级详细论文解说与代码实现】mit 6.824 分布式系统实现 Spring 2023—lab1

大数据Flink简介与架构剖析并搭建基础运行环境

实训笔记8.28

《探花交友》之开篇

第97篇 大数据所带来的

饿了么大数据计算引擎实践与应用

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

Spark调优

Spark 图计算ONEID 进阶版

用于100GB+、TB级大型数据集构建【3】--计算包 cupy简介与测试1

MaxCompute 发布“物化视图智能推荐”，CU算力节省14%

Apache Paimon 在同程旅行的实践进展

终于有一篇讲清楚了什么是Spark

Apache Paimon 在同程旅行的实践进展

边缘计算到区块链，从POW机制到POC机制

随着时代的发展，健康是现在这个社会普遍关注的对象

Hive数据倾斜解决方法总结

腾讯云轻量应用服务器和云服务器有什么区别？

《2023年中国企业数字化转型发展白皮书》发布

Flink

四、Yarn

奥威BI系统|秒分析，更适合分析大数据

Parquet文件格式解析

Parquet文件格式解析

大数据中的流计算

《大数据开发》Hive

大数据计算技术架构解析

hive存储格式对比

Spark系列之Spark的数据倾斜

不会编程也能做数据分析？奥威BI系统就这么任性

HDFS详解

Flink任务优化分享

计算机毕业设计Python+Spark+LSTM中药推荐系统中药大数据可视化中药数据分析中药可视化系统中药知识图谱

第97篇大数据所带来的