spark（scala）第60页

用Scala采集文库公开资料一键搞定千万文章收集

我们都知道，现在各大文库网站里面的内容很多，而且很有用，对于个人来说是非常有价值的，而且能帮助我们解决很多问题。今天闲着没事，打算摸鱼，但是又觉得没有意义，想着利用现有的知识过去写一个文库信息抓取的爬虫模版，后期想要什么类型的文章直接输入关键词，然后静等资料呈上。首先，我们需要导入三个库，它们分别是：java.net.URL，java.net.HttpURLConnection，java.io.B

q56731523·2024-01-06 03:57

[scala] 列表常见用法

文章目录不可变列表List可变列表ListBuffer不可变列表List在Scala中，列表是一种不可变的数据结构，用于存储一系列元素。列表使用List类来表示，它提供了许多方法来操作和处理列表。

言之。·2024-01-06 01:15

【MLOps】使用Ray缩放AI

Ray正在人工智能工程领域崭露头角，对扩展LLM和RL至关重要Spark在数据工程中几乎是必不可少的。Ray正在人工智能工程领域崭露头角。雷是伦敦大学学院Spark的继任者。

架构师研究会·2024-01-06 01:59

1.大数据概述

安装结束概述先了解几个常用的网站apache官网hadoop官网hadoopgithubhttps://github.com/apache/xxx[https://github.com/apache/spark

流月up·2024-01-05 23:00

搭建PySpark大数据分析环境

担心自己遗忘，便做此纪录。普通的数据分析其实仅仅在PyCharm环境即可做相应的分析。但是如果数据较大，还是要在集群环境里跑会快一些，一下又两种方案：针对数据量不大（不是几十上百个G或者百万条级数据）的情况，为了方便可采用方案一：下图为需要使用到的文件：第一步，安装JDK（如果不确定自己的电脑之前是否装过jdk，可以前往设置——应用——应用和功能——搜索java即可查看是否有jdk,后面的查看自己

TraStar·2024-01-05 23:25

大数据全套虚拟机（直接拿来用）

故事背景因为有python的基础，我就跳着学，也就是直接来到了spark阶段这个时候被虚拟机难住了，卖家只有视频，给我发了几个虚拟机都不对，没有办法.。我自己去配，在有相关文档的情况下去配置。

中长跑路上crush·2024-01-05 23:02

Spark学习之Spark Core

什么是Spark？（官网：http://spark.apache.org）https://www.cnblogs.com/lq0310/p/9841647.html

John Stones·2024-01-05 22:51

Hotspot 垃圾回收之ConcurrentMarkSweepGeneration（二）源码解析

目录一、ModUnionClosure/ModUnionClosurePar二、CMSIsAliveClosure/CMSParKeepAliveClosure三、CFLS_LAB1、构造方法和modify_initialization2

孙大圣666·2024-01-05 19:07

spark的任务提交方式及流程

本地模式local测试用,不多赘述分布式模式standalonestandalone集群是spark自带的一个资源调度集群，分为两个角色，master/worker，master负责接收任务请求、资源调度

qzWsong·2024-01-05 19:29

如何在 C# 12 中使用主构造函数

包括Scala、Kotlin和OCaml在内的多种编程语言都支持直接在声明类的位置集成构造函数参数。在本文中，我们将仔细研究主构造函数以及如何在C#12中使用它们。

沃趣数据库管理平台·2024-01-05 17:24

Apache Doris (六十一）： Spark Doris Connector - (1)-源码编译

博主个人B栈地址：豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频目录1.SparkDorisConnector2.Spark与Doris版本兼容

IT贫道·2024-01-05 14:40

Iceberg: 列式读取Parquet数据

通过Spark读取Parquet文件的基本流程SQL==>Spark解析SQL生成逻辑计划树LogicalPlan==>Spark创建扫描表/读取数据的逻辑计划结点DataSourceV2ScanRelation

Dreammmming Time·2024-01-05 14:55

《PySpark大数据分析实战》-24.数据可视化图表介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-05 13:02

大数据开发个人简历范本（2024最新版-附模板）

Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情，喜欢研究和探索新技术专业技能大数据熟悉Hadoop、Spark

itLeeyw·2024-01-05 13:53

Spark OFF_HEAP

OFF_HEAPSpark中RDD提供了几种存储级别，不同的存储级别可以带来不同的容错性能，例如MEMORY_ONLY,MEMORY_ONLY_SER_2...其中，有一种特别的是OFF_HEAPoff_heap

尼小摩·2024-01-05 13:18

Spark调优解析-GC调优3（七）

1GC调优Spark立足内存计算，常常需要在内存中存放大量数据，因此也更依赖JVM的垃圾回收机制。

有语忆语·2024-01-05 12:54

Spark调优解析-spark数据倾斜优化2（七）

1数据倾斜优化1.1为何要处理数据倾斜（DataSkew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾斜？

有语忆语·2024-01-05 12:53

Spark调优解析-sparkshuffle和程序开发优化2(七)

1Shuffle调优1.1调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。

有语忆语·2024-01-05 12:49

python 并发、并行处理、分布式处理

定义协程阻塞代码->非阻塞ThreadPoolExecutor3.响应式编程被观察者运算符4.并行编程线程进程使用多个进程接口Executor，ProcessPoolExecutor5.锁6.分布式处理daskpysparkmpi4py

cjz0422·2024-01-05 12:18

RF(Robot Framework)框架搭建+项目实现

python环境2.安装robotFramework3.安装Ride4.启动Ride二、创建RF项目1.新建项目2.新建套件TestSuite3.新建测试用例4.自定义关键字UserKeyword5.自定义变量Scalar

SuperStar77·2024-01-05 11:02

Spark SQL（六）：JDBC数据源

SparkSQL支持使用JDBC从关系型数据库（比如MySQL）中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用SparkCore提供的各种算子进行处理。

雪飘千里·2024-01-05 11:12

Spark内核解析-部署模式解析8(六)

1、部署模式解析1.1部署模式概述Spark支持的主要的三种分布式部署方式分别是standalone、sparkonmesos和sparkonYARN。

有语忆语·2024-01-05 10:06

Spark内核解析-内存管理7(六)

1、Spark内存管理Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理，有助于更好地开发Spark应用程序和进行性能调优。

有语忆语·2024-01-05 10:36

Spark调优解析-spark调优基本原则1（七）

1调优基本原则1.1基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor

有语忆语·2024-01-05 10:36

Spark内核解析-整体概述1（六）

1、Spark整体概述1.1整体概念ApacheSpark是一个开源的通用集群计算系统，它提供了High-level编程API，支持Scala、Java和Python三种编程语言。

有语忆语·2024-01-05 10:35

Spark内核解析-Spark shuffle6(六)

1、SparkShuffle过程1.1MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。

有语忆语·2024-01-05 10:35

SparkStreaming基础解析（四）

1、SparkStreaming概述1.1SparkStreaming是什么SparkStreaming用于流式数据的处理。

有语忆语·2024-01-05 10:05

Spark内核解析-脚本解析2（六）

2、脚本解析在看源码之前，我们一般会看相关脚本了解其初始化信息以及Bootstrap类，Spark也不例外，而Spark中相关的脚本如下：%SPARK_HOME%/sbin/start-master.sh

有语忆语·2024-01-05 10:05

Spark内核解析-数据存储5（六）

1、Spark的数据存储Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk，本文尝试分析Spark中存储子系统的构成，并以数据写入和数据读取为例，讲述清楚存储子系统中各部件的交互关系

有语忆语·2024-01-05 10:05

Spark基础解析（一）

1、Spark概述1.1什么是Spark1.2Spark内置模块SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

有语忆语·2024-01-05 10:04

2024.1.4 Spark Core ,RDD ,算子

的五大特点四.算子五.分区算子,重分区算子,聚合算子,关联算子分区算子:重分区算子聚合算子关联算子:一.RDD(弹性分布式数据集)Resilent弹性Distrbuted分布式Dataset数据集1.rdd是Spark

白白的wj·2024-01-05 10:01

SparkCore基础解析（二）

1、RDD概述1.1什么是RDDRDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。

有语忆语·2024-01-05 10:58

Spark内核解析-节点启动4（六）

Master作为Endpoint的具体实例，下面我们介绍一下Master启动以及OnStart指令后的相关工作1.1脚本概览下面是一个举例：/opt/jdk1.7.0_79/bin/java-cp/opt/spark

有语忆语·2024-01-05 10:12

【Spark精讲】RDD共享变量：广播变量与累加器

在Spark中，提供了两种类型的共享变量：广播变量(broadcastvariable)与累加器(accumulator)广播变量：主要用于在节点间高效分发大对象。

话数Science·2024-01-05 10:42

【Spark精讲】Spark on Hive性能优化

yarn.nodemanager.resource.memory-mbyarn.nodemanager.resource.cpu-vcoresyarn.scheduler.maximum-allocation-mbyarn.scheduler.minimum-allocation-mb第三章Spark

话数Science·2024-01-05 10:10

【大数据】Spark学习笔记

初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型

pass night·2024-01-05 09:16

Spark内核解析-通信架构3(六)

3、Spark通信架构Spark作为分布式计算框架，多个节点的设计与相互通信模式是其重要的组成部分。Spark一开始使用Akka作为内部通信部件。

有语忆语·2024-01-05 08:42

大数据学习方向

一、大数据运维之Linux基础打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等。

乐姐·2024-01-05 08:18

【Spark精讲】性能优化：并行度

Reduce端并行度RDD：参数：spark.default.parallelism手动：groupByKey(10)，10即为并行度SparkSQL：参数：spark.sql.shuffle.partitionsHiveonSpark

话数Science·2024-01-05 07:58

Kubernets(K8S)启动和运行 01-01 Kubernetes简介

Kubernetesisanopensourceorchestratorfordeployingcontainerizedapplications.ItwasoriginallydevelopedbyGoogle,inspiredbyadecadeofexperiencedeployingscalable

Python私教·2024-01-05 07:24

Unity UGUI开发，0GC更新视图

【USparkle专栏】如果你深怀绝技，爱“搞点研究”，乐于分享也博采众长，我们期待你的加入，让智慧的火花碰撞交织，让知识的传递生生不息！

UWA·2024-01-05 06:43

flink table view datastream互转

caseclassInner(f3:String,f4:Int)测试代码packagecom.yy.table.convertimportorg.apache.flink.streaming.api.scala.StreamExecutionEn

Thomas2143·2024-01-05 06:48

字节跳动 Spark 支持万卡模型推理实践

摘要：本文整理自字节跳动基础架构工程师刘畅和字节跳动机器学习系统工程师张永强在本次CommunityOverCodeAsia2023中的《字节跳动Spark支持万卡模型推理实践》主题演讲。

字节跳动云原生计算·2024-01-05 06:09

Python_PySpark实战

1.PySpark库的安装清华大学源：pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepyspark2.构建PySpark执行环境入口对象"""演示获取

Hooray11·2024-01-05 05:48

linux增加用户

#linux创建账户并自动生成主目录和主目录下的文件useradd-d/home/spark-mspark#带有加入root组的创建方式useradd-d/home/spark-groot-mspark

心在梦梦藏心·2024-01-05 05:47

Scala-模式匹配、样例类、Option类

1、匹配模式Scala有一个十分强大的模式匹配机制，可以应用到很多场合：如switch语句、类型检查等。

小猪Harry·2024-01-05 00:49

Hbase - 自定义Rowkey规则

中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢，这时候我们就可以定制TableInputFormat来实现我们的需求了，我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark

kikiki2·2024-01-05 00:48

SparkSQL、RDD和DataFrame基本操作

1三者比较易操作程度SparkSQL>DataFrame>RDD2创建RDD、DataFrame和SparkSQL2.1创建RDDrawUserData=sc.textFile("file:/home/

路人乙yh·2024-01-04 23:39

金色麦芒的2023

通过学习Hadoop、Spark等框架，我掌握了大数据的存储、处理和分析技术，能够更高效地处理大规模数据集。同时，我也深入学习

溜达的大象·2024-01-04 22:44

Scala 简介一

一、概述Scala语言是基于Java开发的，所以其编译后的文件也是字节码文件，并可以运行在JVM中。Scala这门语言体现了面向对象，函数式编程等多种不同的语言范式，且融合了不同语言新的特性。

DIY……·2024-01-04 22:13

推荐频道

spark（scala）

用Scala采集文库公开资料 一键搞定千万文章收集

[scala] 列表常见用法

【MLOps】使用Ray缩放AI

1.大数据概述

搭建PySpark大数据分析环境

大数据全套虚拟机（直接拿来用）

Spark学习之Spark Core

Hotspot 垃圾回收之ConcurrentMarkSweepGeneration（二） 源码解析

spark的任务提交方式及流程

如何在 C# 12 中使用主构造函数

Apache Doris (六十一）： Spark Doris Connector - (1)-源码编译

Iceberg: 列式读取Parquet数据

《PySpark大数据分析实战》-24.数据可视化图表介绍

大数据开发个人简历范本（2024最新版-附模板）

Spark OFF_HEAP

Spark调优解析-GC调优3（七）

Spark调优解析-spark数据倾斜优化2（七）

Spark调优解析-sparkshuffle和程序开发优化2(七)

python 并发、并行处理、分布式处理

RF(Robot Framework)框架搭建+项目实现

Spark SQL（六）：JDBC数据源

Spark内核解析-部署模式解析8(六)

Spark内核解析-内存管理7(六)

Spark调优解析-spark调优基本原则1（七）

Spark内核解析-整体概述1（六）

Spark内核解析-Spark shuffle6(六)

SparkStreaming基础解析（四）

Spark内核解析-脚本解析2（六）

Spark内核解析-数据存储5（六）

Spark基础解析（一）

2024.1.4 Spark Core ,RDD ,算子

SparkCore基础解析（二）

Spark内核解析-节点启动4（六）

【Spark精讲】RDD共享变量：广播变量与累加器

【Spark精讲】Spark on Hive性能优化

【大数据】Spark学习笔记

Spark内核解析-通信架构3(六)

大数据学习方向

【Spark精讲】性能优化：并行度

Kubernets(K8S)启动和运行 01-01 Kubernetes简介

Unity UGUI开发，0GC更新视图

flink table view datastream互转

字节跳动 Spark 支持万卡模型推理实践

Python_PySpark实战

linux增加用户

Scala-模式匹配、样例类、Option类

Hbase - 自定义Rowkey规则

SparkSQL、RDD和DataFrame基本操作

金色麦芒的2023

Scala 简介一

用Scala采集文库公开资料一键搞定千万文章收集

Hotspot 垃圾回收之ConcurrentMarkSweepGeneration（二）源码解析