大数据计算

Python与大数据：Spark和PySpark实战教程

ApacheSpark作为新一代大数据计算引擎，以其高性能、易用性和强大的生态系统，成为数据工程师和分析师的首选工具。

天天进步2015·2025-06-26 01:58

Hadoop MapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战

HadoopMapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战一、前言HadoopMapReduce是大数据计算生态的基础。

北漂老男人·2025-06-19 22:16

【AI大数据计算原理与代码实例讲解】发布订阅

【AI大数据计算原理与代码实例讲解】发布订阅关键词：发布订阅模式，消息队列，分布式系统，大数据计算，消息传递，事件驱动，微服务1.背景介绍1.1问题的由来在分布式系统和大数据计算领域，高效的消息传递和事件驱动机制是构建可扩展

AI智能应用·2025-06-15 04:54

基于 Java 的大数据分布式计算在基因编辑数据分析与精准医疗中的应用进展

本文将系统阐述**Java技术栈如何构建新一代基因大数据计算中枢**：基于Hadoop+Spark的分布式架构实现千倍加速的基因组比对；通过Flink流式计算引擎支撑CRISPR脱靶效应实时预测；利用ApacheA

知识产权13937636601·2025-06-14 08:11

从MaxCompute到Milvus：通过DataWorks进行数据同步，实现海量数据高效相似性检索

在如今大数据和人工智能应用场景中，企业往往需要对存储在云数据仓库（如云原生大数据计算服务MaxCompute）中的大规模结构化数据进行向量化处理，以支持高效的向量检索和相似性分析等AI应用。

·2025-06-12 17:09

【无标题】

【大数据计算引擎和数据处理引擎】异步通信：允许用户把一个消息放入队列，但并不立即处理它，然后在需要的时候再去处理它们。【注册就响应，发送短信单独处理】消息队列的两种模式：点对点模式和

m0_62801759·2025-06-10 00:23

大数据作业优化：资源调度、并行度、数据倾斜处理实战

本文聚焦于大数据计算作业在生产环境中的性能调优，从资源调度、作业并行度设置，到常见的数据倾斜问题诊断与应对策略，附带可复制的调优参数模板与倾斜检测代码，助力你构建高效、稳定、可伸缩的数据处理作业。

晴天彩虹雨·2025-05-30 13:13

大数据SQL优化原理与实践系列之认知篇（一）

认知篇（第1章）主要面向初学者阐述为什么大数据计算或存储引擎发展至今，最终都会选择以SQL作为统一查询语言的原因及利弊，大数据SQL从业者目前面临的主要问题是什么，以及调优的两个根本目标。原理篇

阿丞23333·2025-05-05 18:12

jupyter notebook安装部署及实战组合漏斗图绘制

主要实现大多都是基于jupyter、Zeppelin进行定制化开发，重点会打通大数据计算、存储及底层资源管理，支持常

李雨凭·2025-04-21 20:59

【AI大数据计算原理与代码实例讲解】Hadoop

【AI大数据计算原理与代码实例讲解】Hadoop作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Hadoop,分布式计算,大数据,数据处理框架,YARN

AI天才研究院·2025-04-11 08:43

Zeppelin 集成TDengine 的探索与实践

主要实现大多都是基于jupyter、Zeppelin进行定制化开发，重点会打通大数据计算、存储及底层资源管理，支持常见的机器学习和深度学习计算框架。

house.zhang·2025-04-10 14:20

探索Hadoop生态圈：核心组件介绍

Hadoop生态圈包括多个组件，如HDFS提供分布式存储，MapReduce处理大数据计算，YARN管理资源调度，HBase支持非结构化数据存储，Hive实现数据仓库功能，Pig提供高级数据流处理，Sqoop

放。756·2025-04-08 12:49

Spark

简介Spark是使用Scala语言编写、基于内存运算的大数据计算框架。

upupfeng·2025-04-08 11:14

前端多线程革命：深入探索 Worker 技术的应用与未来

当我们试图在浏览器中实现图像处理、大数据计算或实时通信等复杂功能时，总会遇到界面卡顿、响应延迟等性能瓶颈。Worker技术的出现，犹如一道曙光，为前端开发打开了通向多线程世界的大门。

斯~内克·2025-04-02 19:26

大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化

1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。

晴天彩虹雨·2025-03-08 10:48

避免Hive和Spark生成HDFS小文件

Hive和spark-sql是两个在常用的大数据计算分析引擎，用户直接以SQL进行大数据操作，底层的数据存储则多由HDFS提供。

穷目楼·2025-03-03 22:36

阿里云 MaxCompute MaxQA 开启公测，解锁近实时高效查询体验

为减少查询响应时间，提升数据效率，阿里云云原生大数据计算服务MaxCompute推出MaxQA（原MCQA2.0）查询加速功能，在独享的查询加速资源池的基础上，对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化

阿里云大数据AI技术·2025-02-20 00:23

【国产自研-神软大数据平台3.4.10】

产品介绍：北京神舟航天软件技术股份有限公司自研全栈式大数据平台神软大数据平台是数据全生命周期一站式数据治理开发平台，提供数据采集、数据集成、数据开发、数据治理、数据服务等功能，支持大数据存储、大数据计算分析引擎等数据底座

王旭亮_·2025-02-18 13:24

数据驱动业务增长，E-MapReduce 真实案例解析

然而，面对PB级甚至EB级的数据规模，传统的本地大数据计算架构往往难以满足性能和成本的要求。如何在保证计算效率的同时降低运维成本，成为企业数据战略中的关键挑战。

Anna_Tong·2025-02-17 11:34

阿里云MWC 2019发布7款重磅产品，助力全球企业迈向智能化

当地时间2月25日，在巴塞罗那举行的MWC2019上，阿里云面向全球发布了7款重磅产品，涵盖无服务器计算、高性能存储、全球网络、企业级数据库、大数据计算等主要云产品，可满足电子商务、物流、金融科技以及制造等各行业企业的数字化转型需求

数据库技术分享者·2025-02-16 13:43

Spark性能调优

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。

大数据侠客·2025-01-31 16:58

matlab大数据计算技巧（持续更新中）

在matlab中，当数据比较大时，运算起来就困难了，有时候还会outofmemory（例如4000*4000的矩阵，要算矩阵乘法都比较吃力）。此文会记录我学到的一些解决办法：1.将数据的存储类型从double转换成single在matlab中double数据类型占8个字节，single类型占4个字节。把数据类型从double类型转换成single类型可以节省一半的空间。单精度浮点数single的取

tina_lulu_21·2025-01-27 14:04

深入MapReduce——引入

下面我们还是老样子，来数据一下要实现海量计算处理能力，有些什么核心痛点大数据计算核心痛点量级大在稍微大一点的互联网企业，需要计算处理的数据量都开始以PB计了。而传统的计算处理模型中，

黄雪超·2025-01-22 23:41

玩转至轻云大数据平台-docker部署篇

产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。

fanciNate454·2025-01-21 16:34

大数据新视界 --大数据大厂之 Volcano：大数据计算任务调度的新突破

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数

青云交·2025-01-17 01:13

大数据新视界 -- 大数据大厂之优化大数据计算框架 Tez 的实践指南

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数

青云交·2025-01-16 20:09

数据中台建设方案-基于大数据平台(下)

数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。

FRDATA1550333·2024-09-11 03:49

Flink生态与未来

本文为《Flink大数据项目实战》学习笔记，想通过视频系统学习Flink这个最火爆的大数据计算框架的同学，推荐学习课程：Flink大数据项目实战：http://t.cn/EJtKhaz核心组件栈Flink

weixin_30394333·2024-09-06 02:00

双十一云起实验室体验专场，七大场景，体验有礼

\大数据计算场景《基于EMR离线数据分析》E-MapReduce（简称“EMR”）是

阿里云天池·2024-08-31 01:30

大数据计算-SQL优化手段(CBO)-以Flink为例

文章目录背景理论知识示例结果展示结果解释背景大数据计算中，SQL生成的执行计划第一轮会经过固定规则的优化，第二轮会根据原计划，生成多条结合成本的的执行计划，根据cost进行排序，选出最优的执行计划。

wending-Y·2024-08-27 17:12

大数据存储

龙哥vw·2024-08-22 02:32

linux安装单机版spark3.5.0

一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0

爱上雪茄·2024-03-17 18:57

国内有实力的三防加固平板厂家｜亿道三防onerugged

无论是多任务处理还是大数据计算，这些平板电脑都能保持流畅和高效的运行。此外

emdoorrugged·2024-02-27 22:35

大数据计算技术秘史（上篇）

在之前的文章《2024年，一个大数据从业者决定……》《存储技术背后的那些事儿》中，我们粗略地回顾了大数据领域的存储技术。在解决了「数据怎么存」之后，下一步就是解决「数据怎么用」的问题。其实在大数据技术兴起之前，对于用户来讲并没有存储和计算的区分，都是用一套数据库或数据仓库的产品来解决问题。而在数据量爆炸性增长后，情况就变得不一样了。单机系统无法存储如此之多的数据，先是过渡到了分库分表这类伪分布式技

·2024-02-22 20:33

大数据 - Spark系列《六》- RDD详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

大数据 - Spark系列《七》- 分区器详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

这次靠你了·2024-02-20 05:26

[Flink04] Flink部署实践

但Flink是大数据计算框架，不是资源调度框架，这并不是它的强项；所以还是应该让专业的框架做专业的事，和其他资源调度框架集成更靠谱。FlinkonYarn模式，把资源管理交给Ya

YoungerChina·2024-02-19 20:49

【读书笔记】《大数据技术体系详解：原理，架构与实践》06.大数据计算引擎篇

批处理引擎MapReduceMapReduce是一个经典的分布式批处理计算引擎，被广泛应用于搜索引擎索引构建、大规模数据处理等场景中，具有易于编程、良好的扩展性与容错性以及高吞吐率等特点。它主要由两部分组成：编程模型和运行时环境。其中，编程模型为用户提供了非常易用的编程接口，用户只需像编写串行程序一样实现几个简单的函数即可实现一个分布式程序，而其他比较复杂的工作，如节点间的通信、节点失效、数据切分

粥一样温柔·2024-02-14 15:01

刷抖音

长时间盯着手机屏幕看，根据大数据计算所得为用户自动推荐的海量内容无边无际，不断有新的消息提醒，像是在诱导催促你快点打开看一看。

萌喵儿·2024-02-11 22:08

大数据 - Spark系列《五》- Spark常用算子

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-09 05:25

国内唯一连续入选Gartner，Quick BI是如何做到的？

阿里云QuickBI凭借灵活的公共云部署，私有化独立部署能力、无缝对接各类云上数据库和自建数据库、可视化搭建分析、高效数据处理能力与强大数据计算能力，使得在2022年持续入选GartnerABI魔力象限报告

阿里云技术·2024-02-08 19:23

深入理解Spark的前世今生

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

闲云野鹤~~~·2024-02-08 14:01

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（一）1.前置知识ODPS（OpenDataPlatformandService）是阿里云自研的一体化大数据计算平台和数据仓库产品，在集团内部离线作为离线数据处理和存储的产品

涤生大数据·2024-02-08 08:55

Spark Chapter 8 Spark SQL

【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用

深海suke·2024-02-07 01:34

大数据平台_大数据应用场景有哪些

大数据时代的出现，简单的讲是海量数据同完美计算能力结合的结果，确切的说是移动互联网、物联网产生了海量的数据，大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。

思迈特Smartbi·2024-02-05 16:06

大数据 - Spark系列《三》- 加载各种数据源创建RDD

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客目录3.1

王哪跑nn·2024-02-05 09:28

大数据 - Spark系列《四》- Spark分布式运行原理

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-05 08:54

子雨大数据之Spark入门教程---Spark入门：RDD的设计与运行原理1.3

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。

千寻～·2024-02-04 06:38

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置

上一篇：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客目录1.Idea中配置LiveTemplates来快速生成代码片段2.Idea中配置文件模板自定义初始代码

王哪跑nn·2024-02-01 07:53

推荐频道

大数据计算

Python与大数据：Spark和PySpark实战教程

Hadoop MapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战

【AI大数据计算原理与代码实例讲解】发布订阅

基于 Java 的大数据分布式计算在基因编辑数据分析与精准医疗中的应用进展

从MaxCompute到Milvus：通过DataWorks进行数据同步，实现海量数据高效相似性检索

【无标题】

大数据作业优化：资源调度、并行度、数据倾斜处理实战

大数据SQL优化原理与实践系列之认知篇（一）

jupyter notebook安装部署及实战组合漏斗图绘制

【AI大数据计算原理与代码实例讲解】Hadoop

Zeppelin 集成TDengine 的探索与实践

探索Hadoop生态圈：核心组件介绍

Spark

前端多线程革命：深入探索 Worker 技术的应用与未来

大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化

避免Hive和Spark生成HDFS小文件

阿里云 MaxCompute MaxQA 开启公测，解锁近实时高效查询体验

【国产自研-神软大数据平台3.4.10】

数据驱动业务增长，E-MapReduce 真实案例解析

阿里云MWC 2019发布7款重磅产品，助力全球企业迈向智能化

Spark性能调优

matlab大数据计算技巧（持续更新中）

深入MapReduce——引入

玩转至轻云大数据平台-docker部署篇

大数据新视界 --大数据大厂之 Volcano：大数据计算任务调度的新突破

大数据新视界 -- 大数据大厂之优化大数据计算框架 Tez 的实践指南

数据中台建设方案-基于大数据平台(下)

Flink生态与未来

双十一云起实验室体验专场，七大场景，体验有礼

大数据计算-SQL优化手段(CBO)-以Flink为例

大数据存储

linux安装单机版spark3.5.0

国内有实力的三防加固平板厂家｜亿道三防onerugged

大数据计算技术秘史（上篇）

大数据 - Spark系列《六》- RDD详解

大数据 - Spark系列《七》- 分区器详解

以内存为核心的开源分布式存储系统

[Flink04] Flink部署实践

【读书笔记】《大数据技术体系详解：原理，架构与实践》06.大数据计算引擎篇

刷抖音

大数据 - Spark系列《五》- Spark常用算子

国内唯一连续入选Gartner，Quick BI是如何做到的？

深入理解Spark的前世今生

涤生大数据实战：基于Flink+ODPS历史累计计算项目分析与优化（上）

Spark Chapter 8 Spark SQL

大数据平台_大数据应用场景有哪些

大数据 - Spark系列《三》- 加载各种数据源创建RDD

大数据 - Spark系列《四》- Spark分布式运行原理

子雨大数据之Spark入门教程---Spark入门：RDD的设计与运行原理1.3

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置