spark（scala）第15页

亚马逊云科技-15分钟分析构建者新内容GenAI

yt,AmazonRedshift,DataQualityRecommendations,DataIngestionAutomation,SensitiveDataMasking,InteractiveSparkAnalytics

taibaili2023·2025-04-23 04:12

Hive学习

一、Hive核心原理1.Hive架构与执行流程Hive是基于Hadoop的数据仓库工具，将SQL转化为分布式计算任务（MapReduce/Tez/Spark），核心组件如下：元数据存储（Metastore

Debug_TheWorld·2025-04-23 03:33

Spark Local模式安装

一、前期准备工作1.配置CentOS7教程2.配置网络环境3.远程工具连接4.安装必要的软件5.卸载重装JDK6.卸载重装MySQL二、安装Spark一、下载安装包官网下载Spark安装包二、上传安装包

飞Link·2025-04-23 01:56

Spark和hadoop的区别与联系

一、Spark和Hadoop的联系：1.同属大数据生态体系二者均为Apache旗下的大数据处理框架，服务于大规模数据的存储与计算，共同构成了大数据技术栈的核心。

今天我又学废了·2025-04-23 01:26

scala学习记录，Set，Map

元素1，元素2...）可变不可变可变（mutable）可对元素进行添加，删除等操作；不可变（immutable）创建后元素不能修改如果要定义可变的Set（mutable），需要额外导入包：importscala.collection.mutableSet

今天我又学废了·2025-04-23 01:56

Spark，数据压缩

一、压缩的好处和坏处压缩的优点：以减少磁盘IO、减少磁盘存储空间。压缩的缺点：增加CPU开销。二、压缩原则（1）运算密集型的Job，少用压缩（2）IO密集型的Job，多用压缩三、压缩算法对比介绍四、打开我们之前的项目（是下面这个哦）在下面位置添加下下面代码然后在第七点上面添加注意：第六点要注释哦

大佬豆豆·2025-04-23 01:26

[预备知识]1. 线性代数基础

1.标量、向量、矩阵与张量1.1标量（Scalar）标量是单个数值，用x∈Rx\in\mathbb{R}x∈R表示。在深度学习中常用于表示权重、偏置等参数。

ayiya_Oese·2025-04-23 00:15

Spark，HDFS客户端操作 2

一）创建文件夹这一小结，我们来通过hadoop的相关api，实现通过代码的方式去创建文件夹。我们的目标是：在根目录下去创建一个名为maven的文件夹。要用到的api是fs.mkdirs。核心代码如下：publicvoidtestMkdirs()throwsIOException,URISyntaxException,InterruptedException{//1获取文件系统Configurati

小冻梨！！！·2025-04-22 21:30

Spark，配置hadoop集群2

1.建立新文件，编写脚本程序在hadoop101中操作，在/root/bin下新建文件：myhadoop，输入如下内容：2.分发执行权限保存后退出，然后赋予脚本执行权限[root@hadoop101~]$chmod+x/root/bin/myhadoop像下图这样查看显示绿色即代表成功！3.分发脚本[root@hadoop101~]$xsync/root/bin/4.测试执行分配完成后可在其他设备

小冻梨！！！·2025-04-22 21:00

Spark(20)spark和Hadoop的区别

ApacheSpark和ApacheHadoop都是广泛使用的开源大数据处理框架，但它们在设计理念、架构、性能和适用场景等方面存在显著区别。

北随琛烬入·2025-04-22 21:00

34、Spark实现读取XLS文件

使用spark-excel（spark-excel）来读取时，文件太大会oom；工具提供的流式读取参数：maxRowsInMemory也只支持xlsx类型文件。

梦想养猫开书店·2025-04-22 10:15

Spark-SQL核心编程

1.Spark-SQL数据加载与保存-通用方式：加载使用spark.read.load，可通过format("…")指定数据类型，load("…")传入数据路径，option("…")设置JDBC参数。

桑榆0806·2025-04-22 09:09

Spark-SQL简介与编程

1.Spark-SQL是什么SparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。

凉白开338·2025-04-22 09:39

Spark-SQL编程

1.Spark-SQL连接Hive连接方式概述：SparkSQL编译时可选择包含Hive支持，包含后能支持Hive表访问、UDF、HQL等功能，且无需事先安装Hive。

桑榆0806·2025-04-22 09:08

IDEA 中 Scala 项目远程连接虚拟机 Spark 环境

IDEA中Scala项目远程连接虚拟机Spark环境1.环境准备确保虚拟机Spark环境正常运行虚拟机中已安装并启动Spark记录虚拟机的IP地址和Spark端口（默认7077）确保虚拟机防火墙允许相关端口访问本地

爱编程的王小美·2025-04-21 18:43

分布式存储 Ceph 架构原理

Ceph的官方网站上，可以看到：“Cephisaunified,distributedstoragesystemdesignedforexcellentperformance,reliabilityandscalability

宋罗世家技术屋·2025-04-21 06:37

Spark-SQL核心编程

Spark-SQL核心编程（四）实验内容：利用IDEA开发Spark-SQL。

露卡_·2025-04-21 01:39

spark-SQL核心编程课后总结

通用加载与保存方式加载数据：Spark-SQL的spark.read.load是通用加载方法，借助format指定数据格式，如csv、jdbc、json等；load用于指定数据路径；option在jdbc

一元钱面包·2025-04-21 01:09

Scala与人工智能：融合多范式编程的AI开发利器

Scala，作为一门融合面向对象（OOP）与函数式编程（FP）的多范式语言，凭借其独特的设计理念和生态系统，正逐渐成为AI开发的重要工具。

扉间798·2025-04-21 01:09

Spark-SQL与Hive的连接及数据处理全解析

Spark-SQL与Hive的连接及数据处理全解析在大数据处理领域，Spark-SQL和Hive都是重要的工具。今天就来聊聊Spark-SQL如何连接Hive以及相关的数据处理操作。

不要天天开心·2025-04-21 01:38

大数据开发之数据仓库

数仓的架构数据源数仓一般会支持多种数据源接入，如MySQL、Spark、

高冷小伙·2025-04-20 03:40

HiveSQL或SparkSQl中group by与grouping sets、with cube和with rollup用法演示

GROUPINGSETS：根据不同的维度组合进行聚合，等价于将不同维度的GROUPBY结果集进行UNIONALL数据准备：建表语句：createtabletmp.gb(astring,bstring,cint)rowformatdelimitedfieldsterminatedby'\t'storedastextfile;案例数据：111212222223212122使用案例：第一种组合：sele

木给哇啦丶·2025-04-19 23:50

yarn的定义，yarn的三大组件及各自作用，yarn的三个资源调度策略

yarn的定义：YARN是一个通用的集群资源管理系统，它能够为运行在Hadoop集群上的各种应用程序（如MapReduce、Spark、Flink等）提供统一的资源调度和管理服务。

嗯.～·2025-04-19 17:07

Scala的lazy变量

1.打开Windows命令控制台，输入Scala并按Enter键，进入Scala解释器2.用val声明一个变量并赋值。

嗯.～·2025-04-19 17:37

一分钟教你用Scala写Helloworld

首先我们要知道学习目标掌握Scala的编写、编译原理与运行一、编写：在C盘或D盘中新建文件Scala用于存储编写出的代码，在Scala文件中新建文本把后缀名改为.scala创建完成后用记事本或其他可以书写的方式打开

嗯.～·2025-04-19 17:36

使用 Maven 来构建 Scala

使用Maven来构建Scala项目方便虽然方便，但依赖于每一个开发人员都去配置一遍项目的必要依赖，包括Scala插件的编译配置以及Scala的依赖类库，让每个人通过拷贝（Copy）之前的项目配置当然可以

痕517·2025-04-19 17:36

用Scala来解决成绩排名的相关问题

任务目标：1.计算每个同学的总分和平均分2.按总分排名，取前三名3.按单科排名，取前三名下图为学生的成绩表实现代码为：packagetest33importjava.io.PrintWriterimportscala.collection.mutable.ListBufferimportscala.io.SourcecaseclassStudent

夏天吃哈密瓜·2025-04-19 17:35

Scala中的正则表达式01

规则类型具体规则示例说明单字符大多数字符匹配自身正则表达式abc，文本abca匹配a，b匹配b，c匹配c方括号[][]定义字符集，匹配其一[abc]，文本a、b或c[abc]匹配a、b或者c排除字符集[^][^]开头加^，匹配排除字符[^abc]，文本d[^abc]匹配除a、b、c之外的字符，如d.匹配除换行外单个字符a.c，文本abc、adc等.可以匹配多种，只要中间是一字符即可规则类型具体规则

夏天吃哈密瓜·2025-04-19 17:35

Scala中的迭代器

1.对比foreach它的优点在于：(1)内存效率高。迭代器采用延迟计算的方式，它不会将整个集合加载到内存中，而是在每次调用next方法时才计算并返回下一个元素。(2)统一的遍历方法。迭代器为不同类型的集合（如列表、集合、映射等）提供了一种统一的遍历方式。无论底层集合的具体结构如何，只要能获取到迭代器，就可以使用相同的hasNext和next方法来遍历元素。(3)支持函数式编程风格，便于链式操作。

夏天吃哈密瓜·2025-04-19 17:05

Scala测试

//定义一个函数，用来求List元素中的最大值objecttest11117{defgetMax[T](list:List[T])(implicitord:Ordering[T]):T={if(list.isEmpty){thrownewIllegalArgumentException("列表不能为空")}varmaxElement=list.headfor(elem<-list.tail){if

只因只因爆·2025-04-19 17:05

Scala隐式转换

//隐式转换:编译器自动滴，把数据类型从A->B//有可能成功，也可能会失败objecttest1118{defgetAge():Double={18.5}//implicit隐式转换//函数名字不重要//重要的是：参数类型和返回类型!!//隐式函数：implicit修饰的函数//特点：1.自动北调用2.函数名字不重要3.重要的是：参数类型和返回类型!!implicitdefabc(d:Doubl

只因只因爆·2025-04-19 17:04

Scala写汉诺塔代码

写汉诺塔需要用到递归函数递归函数就是自己调用自己的函数汉诺塔步骤：记：f（n,"A","B","C"）表示把n个盘子从A柱子上移动到C柱子上，借用B柱子的过程f（要移动到盘子的个数，起点，辅助柱子，终点）1、基本情况（直接能求的）：f（1，“A”，“B”，“C”），可以直接求，从A--->C。2、递归情况（大事化小，自己调用自己）：f（n,"A","B","C"）f(n-1,"A","C","B"

只因只因爆·2025-04-19 17:34

Spark-SQL核心编程

利用IDEA开发Spark-SQL。

zzh-·2025-04-19 16:59

Flink 窗口、Scala泛型通配符、Flink 窗口的底层 API、解析 json 格式的数据

目录Flink窗口TimeWindowSessionWindowCountWindowFlink窗口的底层API卡口过车需求案例解析json格式的数据导入fastjson依赖fastJson解析json字符串实现需求Flink窗口1、TimeWindow时间窗口2、SessionWindow会话窗口如果一段时间没有数据生成一个窗口3、CountWindow统计窗口窗口的使用需要先分组，因为需要针对

赤兔胭脂小吕布·2025-04-19 15:57

Flink基础学习(Scala):窗口函数window

文章目录一、前言二、窗口类型2.1时间窗口(TimeWindow)2.1.1滚动时间窗口2.1.2滑动时间窗口2.1.3会话窗口2.2计数窗口(CountWIndow)2.2.1滚动计数窗口2.2.2滑动计数窗口三、总结一、前言窗口就是将无限流切割成有限流的一种方式，它会将流数据分发到有限大小的桶中进行分析二、窗口类型2.1时间窗口(TimeWindow)2.1.1滚动时间窗口所谓滚动窗口就是将数

雷禄辉·2025-04-19 15:25

Spark rdd算子解析与实践

一、RDD基础回顾RDD（ResilientDistributedDataset）是Spark的核心抽象，代表一个不可变、分区的分布式数据集合。

Debug_TheWorld·2025-04-19 15:23

使用 PySpark 批量清理 Hive 表历史分区

使用PySpark批量清理Hive表历史分区在大数据平台中，Hive表通常采用分区方式存储数据，以提升查询效率和数据管理的灵活性。

D愿你归来仍是少年·2025-04-19 15:23

Spark on K8s 在 vivo 大数据平台的混部实战与优化

一、SparkonK8s简介（一）定义与架构SparkonK8s是一种将Spark运行在Kubernetes（K8s）集群上的架构，由K8s直接创建Driver和Executor的Pod来运行Spark

N201871643·2025-04-19 15:22

使用pyspark 进行简单的算子运算时报Exception ignored in: ＜_io.BufferedRWPair object at 0x0000000001FFD680＞Traceb错误

错误具体截图如下代码如下我当时用的Python解析器版本3.13.2,pyspark版本3.5.5报的这个错，解决办法：1.将python版本降为3.10.10，pyspark版本没改2.在pycharm

菜鸟呼吸声·2025-04-19 14:13

《架构真经：互联网技术架构的设计原则（原书第2版）》一第1章　大道至简...

本节书摘来自华章出版社《架构真经：互联网技术架构的设计原则（原书第2版）》一书中的第1章，第1节，作者ScalabilityRules:PrinciplesforScalingWebSites，SecondEdition

weixin_33868027·2025-04-19 04:13

机器学习：利用Spark MLlib实现分布式机器学习算法训练与预测。

作者：禅与计算机程序设计艺术1.背景介绍近年来，随着云计算、大数据、人工智能等技术的不断发展，基于大规模数据处理的机器学习算法也在迅速发展壮大。机器学习（MachineLearning）是一门融合了统计、模式识别、计算机科学、数据挖掘等多领域知识而成的交叉学科，其目的是利用已知的数据，对未知的数据进行预测、分类、聚类、降维等任务，从而提高计算机程序的学习能力，改善自身的决策能力，解决实际问题。随着

AI天才研究院·2025-04-18 12:56

Spark-SQL核心编程：DataFrame、DataSet与RDD深度解析

在大数据处理领域，Spark-SQL是极为重要的工具。今天就来深入探讨Spark-SQL中DataFrame、DataSet和RDD这三个关键数据结构。

不要天天开心·2025-04-18 11:51

spark-SQL核心编程

1.Spark-SQL简介起源与发展：Spark-SQL前身为Shark，因对Hive依赖制约Spark发展而被弃用。它汲取Shark优点重新开发，在数据兼容、性能优化和组件扩展方面表现出色。

桑榆0806·2025-04-18 10:16

Spark SQL架构工作原理及流程解析

SparkSQL架构工作原理及流程解析，sparksql从shark发展而来，Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。

我想去吃ya·2025-04-18 06:47

Instagram架构揭秘

来自highscalabi...导读：这几天的媒体充斥着Facebook十亿美元收购

一水先生·2025-04-18 04:06

Java中，spark提供的Dataset详解

小巫程序Demo日记：SparkDataset使用全解Java和scala的Dataset的创建方式有所不同，因为Java的API和类型系统与Scala不同。

小巫程序Demo日记·2025-04-18 03:00

大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007

大数据面试:1.说一下hadoop的集群部署模式有哪几种,完全分布式如何部署以及配置?2.hadoop的守护进程有哪些?2.之前的公司,为什么要离职?3.之前公司的待遇工资多少?4.用Flink处理过什么场景的业务,是如何实现的,说一下流程?5.有没有用过NIFI?6.做的时候后端是如何做的,用的什么框架?有没有了解过springcloudTencent?7.hadoop中的代理用户功能的作用,和

添柴程序猿·2025-04-18 03:00

面向对象

面向对象：Scala的面向对象思想和Java的面向对象思想和概念是一致的。Scala中语法和Java不同，补充了更多的功能。

胡萝卜糊了Ohh·2025-04-18 00:39

[Spark]深入解密Spark SQL源码：Catalyst框架如何优雅地解析你的SQL

本文内容组织形式总结具体例子执行语句解析层优化层物理计划层执行层猜你喜欢PS总结先写个总结，接下来会分别产出各个部分的源码解析，SparkSQL主要分为以下五个执行部分。

darkchink·2025-04-17 20:41

Spark-Core编程

Spark-Core编程RDD转换算子Value类型：(1)map将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。

吹35度风·2025-04-17 19:39

推荐频道

spark（scala）

亚马逊云科技-15分钟分析构建者新内容GenAI

Hive学习

Spark Local模式安装

Spark和hadoop的区别与联系

scala学习记录，Set，Map

Spark，数据压缩

[预备知识]1. 线性代数基础

Spark，HDFS客户端操作 2

Spark，配置hadoop集群2

Spark(20)spark和Hadoop的区别

34、Spark实现读取XLS文件

Spark-SQL核心编程

Spark-SQL简介与编程

Spark-SQL编程

IDEA 中 Scala 项目远程连接虚拟机 Spark 环境

分布式存储 Ceph 架构原理

Spark-SQL核心编程

spark-SQL核心编程课后总结

Scala与人工智能：融合多范式编程的AI开发利器

Spark-SQL与Hive的连接及数据处理全解析

大数据开发之数据仓库

HiveSQL或SparkSQl中group by与grouping sets、with cube和with rollup用法演示

yarn的定义，yarn的三大组件及各自作用，yarn的三个资源调度策略

Scala的lazy变量

一分钟教你用Scala写Helloworld

使用 Maven 来构建 Scala

用Scala来解决成绩排名的相关问题

Scala中的正则表达式01

Scala中的迭代器

Scala测试

Scala隐式转换

Scala写汉诺塔代码

Spark-SQL核心编程

Flink 窗口、Scala泛型通配符、Flink 窗口的底层 API、解析 json 格式的数据

Flink基础学习(Scala):窗口函数window

Spark rdd算子解析与实践

使用 PySpark 批量清理 Hive 表历史分区

Spark on K8s 在 vivo 大数据平台的混部实战与优化

使用pyspark 进行简单的算子运算时报Exception ignored in: ＜_io.BufferedRWPair object at 0x0000000001FFD680＞Traceb错误

《架构真经：互联网技术架构的设计原则（原书第2版）》一第1章 大道至简...

机器学习：利用Spark MLlib实现分布式机器学习算法训练与预测。

Spark-SQL核心编程：DataFrame、DataSet与RDD深度解析

spark-SQL核心编程

Spark SQL架构工作原理及流程解析

Instagram架构揭秘

Java中，spark提供的Dataset详解

大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007

面向 对象

[Spark]深入解密Spark SQL源码：Catalyst框架如何优雅地解析你的SQL

Spark-Core编程

《架构真经：互联网技术架构的设计原则（原书第2版）》一第1章　大道至简...

面向对象