菜菜why

HDFS常用shell命令+MapReduce java编程+HBase常用shell命令+Spark python编程(RDD+df)

本文包含详细的HDFS常用shell命令+MapReduce java编程+HBase常用shell命令+Spark python编程(RDD+df)，
本文档纯属个人整理，为了应对大数据期末考试的20分程序填空和20分手撕代码题（一道mapreduce
java，一道spark python）

HDFS Shell 指令说明

文件系统操作命令

`-ls` 命令

hdfs dfs -ls [选项] <路径>

功能：查看指定路径的当前目录结构
常用选项：
- -R：递归显示所有子目录
- -d：仅列出目录本身，不列出内容
- -h：人类可读格式显示文件大小
- -t：按修改时间排序，最近的在前
示例：hdfs dfs -ls /user/hadoop
输出：显示目录下的文件和子目录（非递归）

`-du` 命令

hdfs dfs -du [选项] <路径>

功能：统计目录下各文件/子目录的大小（单位：字节）
常用选项：
- -s：显示汇总值
- -h：以人类可读格式显示大小
- -r：递归统计子目录
- -t：按大小排序输出
输出格式：大小副本大小路径
示例：hdfs dfs -du /data

`-count` 命令

hdfs dfs -count [选项] <路径>

功能：统计路径下的文件/目录数量
常用选项：
- -q：显示配额信息（配额/剩余/空间）
- -h：以人类可读格式显示大小
- -t：显示文件类型信息
- -u：显示每个用户拥有的文件/目录数
输出格式：目录数文件数总大小路径
示例：hdfs dfs -count /user

文件操作命令

`-mv` 命令

hdfs dfs -mv [选项] <源路径> <目的路径>

功能：移动文件/目录（HDFS内部）
常用选项：
- -f：强制覆盖已存在的目标文件
- -p：保留文件元数据（时间戳、权限等）
- -t：指定目标目录
- -d：允许迁移非空目录
示例：hdfs dfs -mv /data/old.log /backup/

`-cp` 命令

hdfs dfs -cp [选项] <源路径> <目的路径>

功能：复制文件/目录（HDFS内部）
常用选项：
- -f：强制覆盖目标文件
- -p：保留文件属性（时间戳、所有权、权限）
- -r：递归复制目录
- -d：跳过创建临时文件
- -t：指定目标目录
示例：hdfs dfs -cp -p /data/file1 /backup/

`-rm` 命令

hdfs dfs -rm [选项] <路径>

功能：删除文件/空白目录
常用选项：
- -f：强制删除，不提示
- -r：递归删除
- -skipTrash：直接删除（不进入回收站）
- -t：指定删除线程数
- -d：仅删除空目录
示例：hdfs dfs -rm /tmp/expired.log

本地与HDFS交互命令

`-put` 命令

hdfs dfs -put [选项] <本地文件1> <本地文件2> ...

功能：上传本地文件到HDFS
常用选项：
- -f：覆盖目标文件
- -p：保留访问和修改时间、所有权和权限
- -l：允许源为符号链接
- -d：跳过创建临时文件
- -t：指定线程数
示例：hdfs dfs -put -f log1.log log2.log /data/

`-copyFromLocal` 命令

hdfs dfs -copyFromLocal [选项] <本地文件>

功能：与 -put 相同（语义化别名）
常用选项：
- -f：覆盖目标文件
- -p：保留文件属性
- -l：允许源为符号链接
- -d：跳过创建临时文件
示例：hdfs dfs -copyFromLocal -p data.csv /input/

`-moveFromLocal` 命令

hdfs dfs -moveFromLocal [选项] <本地文件>

功能：上传后删除本地文件
常用选项：
- -f：覆盖目标文件
- -p：保留元数据
- -t：指定线程数
- -d：跳过创建临时文件
示例：hdfs dfs -moveFromLocal -f temp.dat /storage/

`-getmerge` 命令

hdfs dfs -getmerge [选项]  <本地合并文件>

功能：合并HDFS目录下所有文件到本地单个文件
常用选项：
- -nl：在每个文件末尾添加换行符
- -skip-empty-file：跳过空文件
- -r：递归处理子目录
- -t：指定临时文件目录
示例：hdfs dfs -getmerge -nl /logs/all_logs/ merged.log

`-cat` 命令

hdfs dfs -cat [选项]

功能：查看文件内容
常用选项：
- -ignoreCrc：忽略CRC校验
- -t：指定最大显示行数
- -h：显示头部信息
- -f：包含文件名
示例：hdfs dfs -cat /output/result.txt

`-text` 命令

hdfs dfs -text [选项]

功能：自动解压并查看文本/压缩文件
常用选项：
- -a：显示所有内容，包括非文本字节
- -t：限制显示的最大行数
- -d：显示详细解压信息
- -r：递归处理目录
支持格式：gzip、snappy等
示例：hdfs dfs -text -t 100 /data/compressed.gz

`-copyToLocal` 命令

hdfs dfs -copyToLocal [选项]  <本地路径>

功能：下载HDFS文件到本地
常用选项：
- -p：保留访问和修改时间、所有权、权限
- -ignoreCrc：跳过校验
- -crc：附带CRC校验文件
- -f：覆盖目标文件
- -d：创建父目录
- -t：指定线程数
示例：hdfs dfs -copyToLocal -p /output/results ./

`-moveToLocal` 命令

hdfs dfs -moveToLocal [选项]  <本地路径>

功能：下载后删除HDFS文件（实验性功能）
常用选项：
- -crc：附带CRC校验文件
- -p：保留元数据
- -f：覆盖目标文件
- -d：创建父目录
注意：实际可能不可用
示例：hdfs dfs -moveToLocal -f /tmp/file.txt ./

目录管理命令

`-mkdir` 命令

hdfs dfs -mkdir [选项]

功能：创建目录
常用选项：
- -p：递归创建父目录
- -m：设置目录权限模式
- -t：指定线程数
- -d：设置目录配额
示例：hdfs dfs -mkdir -p -m 755 /user/newdir/subdir

高级操作命令

`-setrep` 命令

hdfs dfs -setrep [选项] <副本数> <路径>

功能：修改文件/目录的副本数
常用选项：
- -R：递归操作
- -w：等待副本调整完成
- -t：指定超时时间（毫秒）
- -m：仅修改内存中的元数据
- -d：在下一次写操作时异步更新
示例：hdfs dfs -setrep -R -w 3 /critical_data

`-touchz` 命令

hdfs dfs -touchz [选项] <文件路径>

功能：创建0字节空白文件（类似Linux touch）
常用选项：
- -a：仅更新文件的访问时间（atime）
- -m：仅更新文件的修改时间（mtime）
- -t：指定时间戳，格式为 [[CC]YY]MMDDhhmm[.ss]
- -r：将指定文件的时间戳复制到目标文件
- -d：指定日期和时间，格式为 YYYY-MM-DD HH:MM:SS
示例：
- 基本用法：hdfs dfs -touchz /tmp/lock.file
- 设置特定时间：hdfs dfs -touchz -d "2023-12-01 08:30:00" /tmp/dated.file
- 仅更新访问时间：hdfs dfs -touchz -a /data/logs/current.log

`-stat` 命令

hdfs dfs -stat [选项] [format] <路径>

功能：显示文件统计信息
常用选项：
- -t：以可读时间格式显示
- -r：递归显示目录内容
- -a：显示所有属性
- -m：仅显示修改时间
格式占位符：
- %b：文件大小（块大小）
- %y：修改时间
- %r：副本数
- %o：块大小
- %n：文件名
- %a：访问时间
- %F：文件类型
示例：hdfs dfs -stat -t "%y %n %r" /data/file

`-tail` 命令

hdfs dfs -tail [选项]

功能：查看文件尾部内容
常用选项：
- -f：实时追踪（类似Linux tail -f）
- -s：间隔时间（以秒为单位，用于-f模式）
- -n：显示的行数
- -d：显示详细信息
- -t：指定超时时间
示例：
- 基本用法：hdfs dfs -tail /logs/app.log
- 实时跟踪：hdfs dfs -tail -f -s 5 /logs/app.log
- 显示末尾20行：hdfs dfs -tail -n 20 /logs/app.log

权限管理命令

`-chmod` 命令

hdfs dfs -chmod [选项] <权限模式> <路径>

功能：修改文件/目录权限（八进制或符号模式）
常用选项：
- -R：递归操作
- -f：静默模式，不显示错误信息
- -t：指定超时时间
- -d：仅修改目录权限，不修改文件
示例：
- 基本用法：hdfs dfs -chmod 755 /public
- 递归修改：hdfs dfs -chmod -R 644 /data/logs
- 符号模式：hdfs dfs -chmod -R u+x /scripts

`-chown` 命令

hdfs dfs -chown [选项] [用户][:组] <路径>

功能：修改属主和属组
常用选项：
- -R：递归操作
- -f：静默模式，不显示错误信息
- -t：指定超时时间
- -d：仅修改目录权限，不修改文件
示例：
- 修改用户：hdfs dfs -chown hadoop /data/file.txt
- 递归修改用户和组：hdfs dfs -chown -R hadoop:analysts /data/reports

`-chgrp` 命令

hdfs dfs -chgrp [选项] <组名> <路径>

功能：修改文件/目录的所属组
常用选项：
- -R：递归操作
- -f：静默模式，不显示错误信息
- -t：指定超时时间
- -d：仅修改目录所属组，不修改文件
示例：
- 基本用法：hdfs dfs -chgrp datagroup /data/file.txt
- 递归修改：hdfs dfs -chgrp -R admin /secure

帮助命令

`-help` 命令

hdfs dfs -help [选项] [具体命令]

功能：显示命令帮助信息
常用选项：
- -a：显示所有可用命令
- -d：显示详细帮助信息
- -r：显示相关命令
- -t：以简洁格式显示
示例：
- 查看特定命令：hdfs dfs -help rm
- 查看所有命令：hdfs dfs -help -a

注意：所有命令中的<路径>默认为HDFS路径，本地路径需显式指定协议（如file:///）

并非所有选项在所有HDFS版本中都可用，请根据您的具体版本参考官方文档确认支持的选项。

MapReduce (Java)

1. MapReduce 介绍

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是"分而治之"，适用于大量复杂的任务处理场景（大规模数据处理场景）。

Map负责"分"，即把复杂的任务分解为若干个"简单的任务"来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。
Reduce负责"合"，即对map阶段的结果进行全局汇总。
MapReduce运行在yarn集群
1. ResourceManager
2. NodeManager

这两个阶段合起来正是MapReduce思想的体现。

还有一个比较形象的语言解释MapReduce:

我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是"Map"。我们人越多，数书就更快。

现在我们到一起，把所有人的统计数加在一起。这就是"Reduce"。

1.1. MapReduce 设计构思

MapReduce是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在Hadoop集群上。

MapReduce设计并提供了统一的计算框架，为程序员隐藏了绝大多数系统层面的处理细节。为程序员提供一个抽象和高层的编程接口和框架。程序员仅需要关心其应用层的具体计算问题，仅需编写少量的处理应用本身计算问题的程序代码。如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理：

Map和Reduce为程序员提供了一个清晰的操作接口抽象描述。MapReduce中定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现.Map和Reduce,MapReduce处理的数据类型是键值对。

Map: (k1; v1) → [(k2; v2)]
Reduce: (k2; [v2]) → [(k3; v3)]

一个完整的mapreduce程序在分布式运行时有三类实例进程：

MRAppMaster 负责整个程序的过程调度及状态协调
MapTask 负责map阶段的整个数据处理流程
ReduceTask 负责reduce阶段的整个数据处理流程

2. MapReduce 编程规范

MapReduce 的开发一共有八个步骤, 其中 Map 阶段分为 2 个步骤，Shuffle 阶段 4 个步骤，Reduce 阶段分为 2 个步骤

Map 阶段 2 个步骤

设置 InputFormat 类, 将数据切分为 Key-Value**(K1和V1)** 对, 输入到第二步
自定义 Map 逻辑, 将第一步的结果转换成另外的 Key-Value（K2和V2）对, 输出结果

Shuffle 阶段 4 个步骤

对输出的 Key-Value 对进行分区
对不同分区的数据按照相同的 Key 排序
(可选) 对分组过的数据初步规约, 降低数据的网络拷贝
对数据进行分组, 相同 Key 的 Value 放入一个集合中

Reduce 阶段 2 个步骤

对多个 Map 任务的结果进行排序以及合并, 编写 Reduce 函数实现自己的逻辑, 对输入的 Key-Value 进行处理, 转为新的 Key-Value（K3和V3）输出
设置 OutputFormat 处理并保存 Reduce 输出的 Key-Value 数据

3. MapReduce 代码示例

例子1：WordMerger - 单词合并去重

package com.wordmerger;

import java.io.IOException;
import java.util.Properties;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordMerger {
    // Map类 - 将输入转为键值对，用于后续去重
    // Step 2: 自定义Map逻辑，将输入的每行文本作为键，空字符串作为值输出
    public static class Map extends Mapper<Object, Text, Text, Text> {
        private static Text text = new Text();

        public void map(Object key, Text value, Context context) throws IOException,
                InterruptedException {
            text = value; // 直接使用输入的Text值作为输出键
            context.write(text, new Text("")); // 输出键值对，值为空Text对象
        }
    }

    // Step 7: Reduce阶段 - 实现去重逻辑
    public static class Reduce extends Reducer<Text, Text, Text, Text> {
        public void reduce(Text key, Iterable<Text> values, Context context) throws IOException,
                InterruptedException {
            // Shuffle阶段已将相同键的值分组，这里只需输出每个键一次即可实现去重
            context.write(key, new Text("")); // 对于每个唯一的键，只输出一次
        }
    }

    public static void main(String[] args) throws Exception {
        Properties properties = System.getProperties();
        properties.setProperty("HADOOP_USER_NAME", "bduser");

        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://10.40.2.147:9000");
        
        String[] otherArgs = new String[] { 
            "/hadoop2/wyh/input2",
            "/hadoop2/wyh/output" 
        };

        if (otherArgs.length != 2) {
            System.err.println("Usage: wordmerger and duplicate removal  ");
            System.exit(2);
        }

        // 配置Job
        Job job = Job.getInstance(conf, "wordmerger and duplicate removal");
        job.setJarByClass(WordMerger.class);
        
        // Step 2: 设置Mapper类
        job.setMapperClass(Map.class);
        
        // Step 7: 设置Reducer类
        job.setReducerClass(Reduce.class);
        
        // 设置输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        // Step 1: 设置输入路径和InputFormat (默认为TextInputFormat)
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        
        // Step 8: 设置输出路径和OutputFormat (默认为TextOutputFormat)
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        // 提交作业并等待完成
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

例子2：WordCount - 单词计数和句子统计

package com.wordcount;

import java.io.IOException;
import java.util.Properties;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

public class WordCount {
    // 用于区分字符和句子的标识
    public static final String CHAR_PREFIX = "CHAR:";
    public static final String SENTENCE_PREFIX = "SENT:";

    // Step 2: 自定义Map逻辑，处理输入并输出带前缀的键值对
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text outKey = new Text();

        public void map(Object key, Text value, Context context) throws IOException,
                InterruptedException {
            String line = value.toString();

            // 处理每行作为一个句子
            outKey.set(SENTENCE_PREFIX + line);
            context.write(outKey, one); // 输出(句子前缀+行内容, 1)键值对

            // 处理每个字符
            char[] chars = line.toCharArray();
            for (char c : chars) {
                if (!Character.isWhitespace(c)) {
                    outKey.set(CHAR_PREFIX + c);
                    context.write(outKey, one); // 输出(字符前缀+字符, 1)键值对
                }
            }
        }
    }

    // Step 3-6: Shuffle阶段会自动处理分区、排序、规约和分组
    
    // Step 7: Reduce阶段 - 汇总统计结果
    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();
        private Text outputKey = new Text();

        public void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {
            // 对每个键对应的所有值进行求和
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }

            String keyStr = key.toString();

            // 对于句子，只输出出现次数大于1的
            if (keyStr.startsWith(SENTENCE_PREFIX)) {
                if (sum > 1) {
                    outputKey.set(keyStr.substring(SENTENCE_PREFIX.length()));
                    result.set(sum);
                    context.write(outputKey, result);
                }
            }
            // 对于字符，正常输出
            else if (keyStr.startsWith(CHAR_PREFIX)) {
                outputKey.set(keyStr.substring(CHAR_PREFIX.length()));
                result.set(sum);
                context.write(outputKey, result);
            }
        }
    }

    public static void main(String[] args) throws Exception {
        Properties properties = System.getProperties();
        properties.setProperty("HADOOP_USER_NAME", "bduser");

        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://10.40.2.147:9000");
        
        String[] otherArgs = new String[] { 
            "/hadoop2/wyh/input3",
            "/hadoop2/wyh/output4" 
        };

        if (otherArgs.length < 2) {
            System.err.println("Usage: wordcount  [...] ");
            System.exit(2);
        }

        // 配置Job
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        
        // Step 2: 设置Mapper类
        job.setMapperClass(TokenizerMapper.class);
        
        // Step 7: 设置Reducer类
        job.setReducerClass(IntSumReducer.class);

        // Step 1: 设置InputFormat
        job.setInputFormatClass(TextInputFormat.class);
        
        // 设置输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // Step 1: 添加输入路径
        for (int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }

        // Step 8: 设置输出路径和OutputFormat(默认TextOutputFormat)
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        
        // 提交作业并等待完成
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

例子3：SecondarySort - 二次排序

package com.secondarysort;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.util.Properties;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.RawComparator;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * 这是一个Hadoop Map/Reduce应用示例。它读取包含每行两个整数的文本输入文件。
 * 输出按第一个数字和第二个数字排序，并按第一个数字分组。
 */
public class SecondarySort {

    // 自定义WritableComparable类型，实现二次排序的关键
    public static class IntPair implements WritableComparable<IntPair> {
        private int first = 0;
        private int second = 0;

        // 设置整数对的值
        public void set(int left, int right) {
            first = left;
            second = right;
        }

        // 获取第一个元素
        public int getFirst() {
            return first;
        }

        // 获取第二个元素
        public int getSecond() {
            return second;
        }

        // 实现从DataInput读取字段的方法
        @Override
        public void readFields(DataInput in) throws IOException {
            first = in.readInt() + Integer.MIN_VALUE;
            second = in.readInt() + Integer.MIN_VALUE;
        }

        // 实现向DataOutput写入字段的方法
        @Override
        public void write(DataOutput out) throws IOException {
            out.writeInt(first - Integer.MIN_VALUE);
            out.writeInt(second - Integer.MIN_VALUE);
        }

        // 计算哈希值
        @Override
        public int hashCode() {
            return first * 157 + second;
        }

        // 实现equals方法，判断两个IntPair是否相等
        @Override
        public boolean equals(Object right) {
            if (right instanceof IntPair) {
                IntPair r = (IntPair) right;
                return r.first == first && r.second == second;
            } else {
                return false;
            }
        }

        // Step 4: 自定义比较器，用于排序
        public static class Comparator extends WritableComparator {
            public Comparator() {
                super(IntPair.class);
            }

            // 比较两个序列化的IntPair对象
            public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
                return compareBytes(b1, s1, l1, b2, s2, l2);
            }
        }

        // 注册IntPair的比较器
        static {
            WritableComparator.define(IntPair.class, new Comparator());
        }

        // 实现compareTo方法，定义排序规则
        @Override
        public int compareTo(IntPair o) {
            // 先按first排序，相同时按second排序
            if (first != o.first) {
                return first < o.first ? -1 : 1;
            } else if (second != o.second) {
                return second < o.second ? -1 : 1;
            } else {
                return 0;
            }
        }
    }

    // Step 3: 自定义分区器，决定数据发送到哪个Reducer
    public static class FirstPartitioner extends Partitioner<IntPair, IntWritable> {
        @Override
        public int getPartition(IntPair key, IntWritable value, int numPartitions) {
            // 只根据第一个整数决定分区
            return Math.abs(key.getFirst() * 127) % numPartitions;
        }
    }

    // Step 6: 自定义分组比较器，决定哪些键会被分到同一组传给Reducer
    public static class FirstGroupingComparator implements RawComparator<IntPair> {
        // 比较序列化格式
        @Override
        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
            // 只比较第一个整数部分(4字节)
            return WritableComparator.compareBytes(b1, s1, Integer.SIZE / 8, b2, s2, Integer.SIZE / 8);
        }

        // 比较对象格式
        @Override
        public int compare(IntPair o1, IntPair o2) {
            // 只比较第一个值
            int l = o1.getFirst();
            int r = o2.getFirst();
            return l == r ? 0 : (l < r ? -1 : 1);
        }
    }

    // Step 2: 自定义Map逻辑
    public static class MapClass extends Mapper<LongWritable, Text, IntPair, IntWritable> {
        private final IntPair key = new IntPair();
        private final IntWritable value = new IntWritable();

        @Override
        public void map(LongWritable inKey, Text inValue, Context context) throws IOException,
                InterruptedException {
            // 从每行文本中解析出两个整数
            StringTokenizer itr = new StringTokenizer(inValue.toString());
            int left = 0;
            int right = 0;
            if (itr.hasMoreTokens()) {
                left = Integer.parseInt(itr.nextToken());
                if (itr.hasMoreTokens()) {
                    right = Integer.parseInt(itr.nextToken());
                }
                // 创建键值对: ((left, right), right)
                key.set(left, right);
                value.set(right);
                context.write(key, value);
            }
        }
    }

    // Step 7: 自定义Reduce逻辑
    public static class Reduce extends Reducer<IntPair, IntWritable, Text, IntWritable> {
        private static final Text SEPARATOR = new Text("-----------------------------------------------");
        private final Text first = new Text();

        @Override
        public void reduce(IntPair key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {
            // 输出分隔符
            context.write(SEPARATOR, null);
            // 将第一个整数转为文本
            first.set(Integer.toString(key.getFirst()));
            // 遍历所有值并输出
            for (IntWritable value : values) {
                context.write(first, value);
            }
        }
    }

    public static void main(String[] args) throws Exception {
        Properties properties = System.getProperties();
        properties.setProperty("HADOOP_USER_NAME", "bduser");

        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://10.40.2.147:9000");
        
        String[] otherArgs = new String[] { 
            "/hadoop2/wyh/input2",
            "/hadoop2/wyh/output2" 
        };

        if (otherArgs.length != 2) {
            System.err.println("Usage: secondarysort  ");
            System.exit(2);
        }

        // 配置Job
        Job job = Job.getInstance(conf, "secondary sort");
        job.setJarByClass(SecondarySort.class);
        
        // Step 2: 设置Mapper类
        job.setMapperClass(MapClass.class);
        
        // Step 7: 设置Reducer类
        job.setReducerClass(Reduce.class);

        // Step 3: 设置分区器
        job.setPartitionerClass(FirstPartitioner.class);
        
        // Step 6: 设置分组比较器
        job.setGroupingComparatorClass(FirstGroupingComparator.class);

        // 设置Map输出类型
        job.setMapOutputKeyClass(IntPair.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 设置Reduce输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // Step 1: 设置输入路径和InputFormat(默认TextInputFormat)
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        
        // Step 8: 设置输出路径和OutputFormat(默认TextOutputFormat)
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        // 提交作业并等待完成
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

Hbase (Shell)

HBase 数据组织结构

数据模型层级

层级	说明
表（Table）	存储数据的逻辑单元，由多行组成。
行（Row）	由行键（Row Key）唯一标识，按字典序排序。
列族（Column Family）	列的集合，必须在创建表时定义（如 cf1, cf2）。列族存储在同一个 HFile 中，影响物理存储。
列（Column）	动态添加，格式为列族:列族限定符（如 cf1:name, cf1:age）。
单元格（Cell）	由行键 + 列族:列名 + 时间戳唯一确定，存储实际数据（如 value）。
时间戳（Timestamp）	数据版本控制，默认由系统自动生成，也可手动指定。

示例数据存储结构

在HBase中，数据按列族物理存储，每个单元格由(行键, 列族:列名, 时间戳)唯一确定：

Row Key	Column Family & Column	Timestamp	Value
row1	cf1:name	1	“Alice”
row1	cf1:city	3	“Beijing”
row1	cf2:age	2	“25”
row2	cf1:name	4	“Bob”
row2	cf2:age	5	“30”

逻辑视图（用户视角）:

Row Key	cf1:name	cf1:city	cf2:age
row1	“Alice”	“Beijing”	“25”
row2	“Bob”	-	“30”

注意：

HBase是稀疏存储的，不存在的列不占用存储空间
每个单元格可以有多个版本（不同时间戳）
数据按行键字典序存储，按列族物理隔离

HBase 常用指令整理

表操作命令

功能	命令表达式	说明
创建表	`create '表名', '列族1', '列族2', ...`	可指定多个列族
禁用表	`disable '表名'`	删除表前必需操作
删除表	`drop '表名'`	必须先禁用表
查看表是否存在	`exists '表名'`
启用表	`enable '表名'`	重新启用已禁用的表

数据操作命令

功能	命令表达式	说明
插入/更新数据	`put '表名', '行键', '列族:列名', '值'`	不存在则插入，存在则更新
查询单行	`get '表名', '行键'`	获取整行数据
带条件查询	`get '表名', '行键', {COLUMN => '列族:列名'}`	查询特定列
删除数据	`delete '表名', '行键', '列族:列名'`	删除指定单元格
删除整行	`deleteall '表名', '行键'`	删除整行所有版本

扫描统计命令

功能	命令表达式	说明
全表扫描	`scan '表名'`	默认显示100条，可用LIMIT参数
列族扫描	`scan '表名', {COLUMNS => '列族'}`	只扫描指定列族
范围扫描	`scan '表名', {STARTROW => '起始行', STOPROW => '结束行'}`	左闭右开区间
记录计数	`count '表名'`	统计行数（可能不实时）
快速计数	`count '表名', INTERVAL => 100000`	每10万行显示进度

高级操作命令

功能	命令表达式	说明
查看表结构	`describe '表名'`	显示列族配置信息
修改表结构	`alter '表名', {NAME => '列族', VERSIONS => 3}`	需先禁用表
批量操作	`exec '命令文件.hbase'`	执行脚本文件
区域信息	`status '表名'`	查看表分区状态
快照操作	`snapshot '表名', '快照名'`	需先配置快照功能

HBase 常用操作实践

1. 验证表创建情况

可以使用多种命令查看数据库是否创建成功：

list 命令

以列表形式显示所有数据表：

hbase(main):002:0> list

describe 命令

查看表的结构：

hbase(main):003:0> describe 'student'

exists 命令

查询表是否存在：

hbase(main):004:0> exists 'student'

is_enabled 命令

查询表是否可用：

hbase(main):005:0> is_enabled 'student'

2. 向表中插入数据

使用 put 命令向表中插入数据。HBase 中的列是由列族前缀和列的名字组成的，以冒号间隔。

hbase(main):006:0> put 'student', 'row1', 'score:a', 'value1'
hbase(main):007:0> put 'student', 'row2', 'score:b', 'value2'
hbase(main):008:0> put 'student', 'row3', 'score:c', 'value3'

3. 检查数据插入情况

可以使用 scan 和 get 命令来检查插入结果：

scan 命令

扫描整个表：

hbase(main):009:0> scan 'student'

get 命令

获取特定行的数据：

hbase(main):010:0> get 'student', 'row1'

4. 删除表

删除表需要两步操作：

先使用 disable 命令使表无效：

hbase(main):011:0> disable 'student'

然后使用 drop 命令删除表：

hbase(main):012:0> drop 'student'

Spark (Python)

一、Spark RDD (弹性分布式数据集) 操作

1. RDD 基本概念

Resilient Distributed Dataset (弹性分布式数据集) 是 Spark 的核心概念，是一个不可变的、可分区的分布式数据集合，可以并行操作。RDD具有以下特点：

弹性：容错性强，可以自动从节点故障中恢复
分布式：数据分布在集群多个节点上
数据集：可以存储各种类型的数据
不可变性：创建后不能修改，只能通过转换操作生成新RDD
延迟计算：转换操作不会立即执行，而是在动作操作时触发

2. 创建RDD

新函数：

sc.parallelize()：将本地集合转换为分布式RDD
sc.textFile()：从文本文件创建RDD

2.1 从本地集合创建

# 创建包含整数的RDD
# sc.parallelize() 将本地Python列表转换为分布式数据集
intRDD = sc.parallelize([3, 1, 2, 5, 5])

# 查看RDD内容和类型
intRDD.collect()  # 输出: [3, 1, 2, 5, 5]
type(intRDD)      # 输出: pyspark.rdd.RDD

# 创建包含字符串的RDD
stringRDD = sc.parallelize(["浙江省", "天津市", "北京市", "上海市", "浙江省", "广东省"])
stringRDD.collect()  # 输出: ['浙江省', '天津市', '北京市', '上海市', '浙江省', '广东省']

2.2 从文件创建

# 从HDFS文本文件创建RDD
textFileRDD = sc.textFile("/hadoop2/zhangsan/inputEnglish/LICENSE.txt")
textFileRDD.take(2)  # 显示前两行内容

3. RDD 转换操作 (Transformations)

转换操作创建一个新的RDD，不会触发计算。这些操作都是惰性的，只有在动作操作时才会执行。

3.1 基本转换操作

新函数：

map()：对每个元素应用函数
filter()：筛选满足条件的元素
distinct()：去除重复元素
flatMap()：对每个元素应用函数并扁平化结果

# map: 对每个元素应用函数
# 使用具名函数
def addOne(x): 
    return x + 1
intRDD.map(addOne).collect()  # 输出: [4, 2, 3, 6, 6]

# 使用匿名函数(lambda)
intRDD.map(lambda x: x + 1).collect()  # 输出: [4, 2, 3, 6, 6]

# 对字符串使用map
stringRDD.map(lambda x: "籍贯:" + x).collect()  # 输出: ['籍贯:浙江省', '籍贯:天津市', ...]

# filter: 筛选满足条件的元素
intRDD.filter(lambda x: x < 3).collect()  # 输出: [1, 2]
intRDD.filter(lambda x: x == 3).collect()  # 输出: [3]
intRDD.filter(lambda x: 1 < x and x < 5).collect()  # 输出: [3, 2]

# 字符串筛选
stringRDD.filter(lambda x: "市" in x).collect()  # 输出: ['天津市', '北京市', '上海市']

# distinct: 去除RDD中的重复元素
intRDD.distinct().collect()  # 输出: [1, 2, 3, 5]
stringRDD.distinct().collect()  # 输出: ['浙江省', '天津市', '北京市', '上海市', '广东省']

3.2 高级转换操作

新函数：

randomSplit()：随机分割RDD
groupBy()：根据函数结果对元素分组

# randomSplit: 随机分割RDD为多个子RDD
sRDD = intRDD.randomSplit([0.4, 0.6])  # 按0.4:0.6的比例分割
sRDD[0].collect()  # 第一个RDD，约40%的数据
sRDD[1].collect()  # 第二个RDD，约60%的数据

# groupBy: 根据函数结果对元素分组
# 按奇偶性分组
gRDD = intRDD.groupBy(lambda x: "even" if (x % 2 == 0) else "odd").collect()
print(gRDD[0][0], sorted(gRDD[0][1]))  # 如: 'even' [2]
print(gRDD[1][0], sorted(gRDD[1][1]))  # 如: 'odd' [1, 3, 5, 5]

# 更复杂的groupBy示例：按除以2的余数分组
rdd = sc.parallelize([1, 1, 2, 3, 8, 6, 7, 5, 8])
result = rdd.groupBy(lambda x: x % 2).collect()
[[x, sorted(y)] for (x, y) in result]  # 输出如: [[0, [2, 6, 8, 8]], [1, [1, 1, 3, 5, 7]]]

3.3 多RDD转换操作

新函数：

union()：合并两个RDD，不去重
intersection()：求两个RDD的交集，会去重
subtract()：从第一个RDD中移除第二个RDD中的元素
cartesian()：计算两个RDD的笛卡尔积

# 创建多个RDD进行集合操作
intRDD1 = sc.parallelize([3, 1, 2, 5, 5])
intRDD2 = sc.parallelize([5, 6])
intRDD3 = sc.parallelize([2, 7])

# union: 合并RDD (不去重)
intRDD1.union(intRDD2).union(intRDD3).collect()  # 输出: [3, 1, 2, 5, 5, 5, 6, 2, 7]

# intersection: 两个RDD的交集
intRDD1.intersection(intRDD2).collect()  # 输出: [5]

# subtract: 第一个RDD中存在但第二个RDD中不存在的元素
intRDD1.subtract(intRDD2).collect()  # 输出: [1, 2, 3]

# cartesian: 笛卡尔积
result = intRDD1.cartesian(intRDD2).collect()  # 输出类似: [(3,5), (3,6), (1,5), ...]

4. RDD 动作操作 (Actions)

动作操作会触发实际计算，返回值给驱动程序或写入外部存储系统。

新函数：

collect()：返回RDD中的所有元素到驱动程序
count()：计算RDD元素数量
first()：返回第一个元素
take(n)：返回前n个元素
takeOrdered(n)：返回自然顺序排序后的前n个元素
stats(), min(), max(), sum(), mean()：统计函数

# collect: 收集所有元素到驱动程序
intRDD.collect()  # 输出: [3, 1, 2, 5, 5]

# count: 计算元素数量
intRDD.count()  # 输出: 5

# first: 获取第一个元素
intRDD.first()  # 输出: 3

# take: 获取前n个元素
intRDD.take(2)  # 输出: [3, 1]

# takeOrdered: 排序后取前n个
intRDD.takeOrdered(3)  # 输出: [1, 2, 3] (自然顺序)
intRDD.takeOrdered(3, key=lambda x: -x)  # 输出: [5, 5, 3] (降序)

# 统计函数
intRDD.stats()  # 输出统计摘要: (count: 5, mean: 3.2, stdev: 1.6, max: 5.0, min: 1.0)
intRDD.min()  # 输出: 1
intRDD.max()  # 输出: 5
intRDD.sum()  # 输出: 16
intRDD.mean()  # 输出: 3.2

5. 键值对 RDD 操作

键值对RDD是包含键值对的RDD，有特殊的操作方法。

新函数：

keys(), values()：获取所有键或值
mapValues()：仅转换值，保持键不变
sortByKey()：按键排序
reduceByKey()：按键归约
groupByKey()：按键分组
join(), leftOuterJoin(), rightOuterJoin()：连接操作
countByKey()：统计每个键的出现次数
lookup()：查找指定键的所有值

# 创建键值对RDD
kvRDD = sc.parallelize([("1001", "肇事逃逸"), ("1001", "无证驾驶"), ("1003", "酒后驾驶"), ("1001", "酒驾")])

# 基本操作
kvRDD.keys().collect()  # 输出: ['1001', '1001', '1003', '1001']
kvRDD.values().collect()  # 输出: ['肇事逃逸', '无证驾驶', '酒后驾驶', '酒驾']

# 按键筛选
kvRDD.filter(lambda kv: kv[0] < "1002").collect()  # 输出: [('1001', '肇事逃逸'), ('1001', '无证驾驶'), ('1001', '酒驾')]

# 转换值
kvRDD.mapValues(lambda v: v + "情节严重").collect()  # 输出: [('1001', '肇事逃逸情节严重'), ...]

# 排序
kvRDD.sortByKey().collect()  # 按键升序
kvRDD.sortByKey(ascending=False).collect()  # 按键降序

# 按键归约，合并相同键的值
kvRDD.reduceByKey(lambda x, y: x + "," + y).collect()  # 输出: [('1003', '酒后驾驶'), ('1001', '肇事逃逸,无证驾驶,酒驾')]

# 连接操作
kvRDD2 = sc.parallelize([("1001", "于谦"), ("1002", "郭德纲")])
kvRDD.join(kvRDD2).collect()  # 内连接
kvRDD.leftOuterJoin(kvRDD2).collect()  # 左外连接
kvRDD.rightOuterJoin(kvRDD2).collect()  # 右外连接

# 动作操作
kvRDD.countByKey()  # 输出: defaultdict(int, {'1001': 3, '1003': 1})
kvRDD.lookup("1001")  # 输出: ['肇事逃逸', '无证驾驶', '酒驾']
KV = kvRDD.collectAsMap()  # 转换为字典(重复键会被覆盖)

6. WordCount 示例

WordCount是大数据处理的"Hello World"。以下是使用Spark RDD实现的词频统计：

# 1. 从文件读取文本
textFile = sc.textFile("/hadoop2/zhangsan/inputEnglish/LICENSE.txt")

# 2. 将文本分割为单词
stringRDD = textFile.flatMap(lambda line: line.split(" "))

# 3. 将每个单词映射为(单词,1)的键值对
wordPairs = stringRDD.map(lambda word: (word, 1))

# 4. 按键(单词)归约，统计每个单词出现次数
counts = wordPairs.reduceByKey(lambda x, y: x + y)

# 5. 保存结果
counts.saveAsTextFile("/spark/output/")

# 查看部分结果(可选)
counts.take(5)

二、Spark DataFrame 操作

1. DataFrame 基本概念

DataFrame是一种分布式的数据集合，组织成命名列的形式，概念上等同于关系数据库中的表。DataFrame提供了比RDD更高级的抽象，支持结构化数据处理和SQL查询。

主要特点：

命名列和结构化数据
优化的执行计划
支持多种数据源
支持SQL查询
与机器学习库无缝集成

2. 创建DataFrame

新函数：

SparkSession.builder.getOrCreate()：获取SparkSession
createDataFrame()：从RDD创建DataFrame
Row()：创建命名行对象

2.1 从RDD创建DataFrame

# 1. 读取文本文件创建RDD
RawUserRDD = sc.textFile("/spark/user")

# 2. 解析数据，分割字段
userRDD = RawUserRDD.map(lambda line: line.split("|"))

# 3. 转换为Row对象(带列名)
from pyspark.sql import Row
user_Rows = userRDD.map(lambda p: Row(
    userid=int(p[0]),
    age=int(p[1]),
    gender=p[2],
    occupation=p[3]),
    zipcode=p[4]
)

# 4. 创建DataFrame
sqlContext = SparkSession.builder.getOrCreate()
user_df = sqlContext.createDataFrame(user_Rows)

# 5. 查看DataFrame结构和内容
user_df.printSchema()  # 显示结构
user_df.show(5)  # 显示前5行

3. DataFrame 基本操作

新函数：

select()：选择列
filter()：筛选行
orderBy()：排序
withColumn()：添加或替换列
show()：显示内容

# 为DataFrame创建别名(便于引用)
df = user_df.alias("df")

# select: 选择特定列
user_df_1 = df.select("userid", "occupation", "gender", "age")
user_df_1.show(5)

# 不同的列引用方式
df.select(df.userid, df.occupation, df.gender, df.age).show(5)  # 使用列引用
df[['userid', 'occupation', 'gender', 'age']].show(5)  # 使用列表

# filter: 筛选数据
# 方式1: 使用字符串表达式
df.filter("occupation='technician' and gender='M' and age=24").show()

# 方式2: 使用列引用和条件表达式
df.filter((df.occupation == 'technician') & (df.gender == 'M') & (df.age == 24)).show()

# orderBy: 排序
df.select("userid", "occupation", "gender", "age").orderBy("age").show(5)  # 升序
df.select("userid", "occupation", "gender", "age").orderBy(df.age.desc()).show(5)  # 降序

# 多字段排序
df.orderBy(["age", "gender"], ascending=[0, 1]).show(5)  # 年龄降序，性别升序

# 添加计算列
df.select("userid", "gender", "age", (2021 - df.age).alias("birthyear")).show(5)

4. Spark SQL 操作

新函数：

registerTempTable()/createOrReplaceTempView()：注册临时表
sqlContext.sql()：执行SQL查询

# 注册临时表
user_df.registerTempTable("user_table")

# 执行SQL查询
# 统计总数
sqlContext.sql("SELECT count(*) as user_count FROM user_table").show()

# 选择特定列
sqlContext.sql("SELECT userid, occupation, gender, age FROM user_table").show(5)

# 添加计算列
sqlContext.sql("SELECT userid, gender, age, 2021 - age as birthyear FROM user_table").show(5)

# 条件过滤
sqlContext.sql('SELECT * FROM user_table WHERE occupation="technician" AND gender="M" AND age=24').show()

# 排序
sqlContext.sql("SELECT userid, occupation, gender, age FROM user_table ORDER BY age DESC").show(5)

# 分组聚合
sqlContext.sql("SELECT gender, occupation, COUNT(*) as count FROM user_table GROUP BY gender, occupation ORDER BY count DESC").show(5)

5. DataFrames 高级操作

新函数：

groupBy()：分组聚合
agg()：聚合函数
join()：连接操作
distinct()：去重

# 导入聚合函数
from pyspark.sql.functions import count, avg, max, min, sum, desc

# 分组聚合
df.groupBy("gender").count().show()
df.groupBy("gender", "occupation").agg(count("*").alias("人数"), avg("age").alias("平均年龄")).show()

# 连接操作
# 假设有第二个DataFrame
occupation_df = sqlContext.createDataFrame([
    ("technician", "技术员"),
    ("scientist", "科学家"),
    ("engineer", "工程师")
], ["occupation", "chinese_name"])

# 执行连接
df.join(occupation_df, "occupation").select("userid", "occupation", "chinese_name", "gender").show()

# 去重操作
df.select("occupation").distinct().show()

你可能感兴趣的:(hdfs,mapreduce,java)

移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Java8 Stream流的sorted()的排序【正序、倒序、多字段排序】 Tony666688888 java windows 开发语言
针对集合排序，java8可以用Stream流的sorted()进行排序。示例Bean以下我们会使用这个Bean来做示例。publicclassOrder{privateStringweight;privateDoubleprice;privateStringdateStr;//忽略getter、setter、构造方法、toString}字段排序首先是比较器Comparator，形式如下：Compa
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
java实习生40多天有感别拿爱情当饭吃
从5月15日开始，我开始第一步步入社会，我今年大三，在一家上市互联网公司做一名实习生，主要做java后端开发。开始的时候，觉得公司的环境挺不错的，不过因为公司在CBD，所以隔壁的午饭和晚饭都要20+RMB，而且还吃不饱，这让我感觉挺郁闷的。一到下午，我就会犯困（因为饿）。因此，我又不得不买一些干粮在公司屯着。关于技术，有一个比较大的项目在需求调研当中，我们做实习生，就是辅助项目经理，测试功能，并且
大学生入门：初识方法及其易踩坑的点
在java学习过程中，我们不难发现有很多重复使用的功能代码块，每次使用如果都要重新写一遍，岂不是很麻烦，就算是“cv”大法，感觉也不是很方便，那么，有什么办法可以解决这个问题呢？方法！java中，一段可重用的，用于执行特定功能的代码块叫做方法，它可以接收参数、返回结果，并且可以被多次使用。一、方法的基本结构[修饰符]返回值类型方法名([参数列表])[throws异常类型]{//方法体}[throw
[Ljava.lang.Object; cannot be cast to [Ljava.lang.String; 这些不会的
解释：这个错误是很常见的错误，错误的提示已经很清楚了就是java的Object数组不能转换成为String[]数组，这就说明你要转换的数组它本身是Object类型的数组，但是你却非要把它转换为String类的数组，这当然是错误的。示例：[java]viewplaincopypackagecom.dada;importjava.util.ArrayList;importjava.util.List;
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
【免费下载】 Aspose for Java：解锁无水印、无限制的文档处理能力房征劲Kendall
AsposeforJava：解锁无水印、无限制的文档处理能力【下载地址】AsposeforJava-去除水印和数量限制AsposeforJava-去除水印和数量限制Aspose是一个著名的文档处理库，专为Java应用程序设计，支持多种文档格式的操作，如Word、Excel、PDF等项目地址:https://gitcode.com/open-source-toolkit/56c82项目介绍在现代企业
微服务日志追踪，Skywalking接入TraceId功能 Victor刘微服务 skywalking java
文章目录一、借助skywalking追加traceIdlogbacklog4j2效果二、让skywalking显示日志内容版本差异logback配置文件log4j2配置文件一、借助skywalking追加traceId背景：在微服务或多副本中难以观察一个链路的日志，需要通过唯一traceId标识来查找，下面介绍Skywalking-traceId在Java中的配置方法。介绍两种java日志的配置方
【Java Web实战】从零到一打造企业级网上购书网站系统 | 完整开发实录（三）笙囧同学 java 前端状态模式
核心功能设计用户管理系统用户管理是整个系统的基础，我设计了完整的用户生命周期管理：用户注册流程验证失败验证通过验证失败验证通过用户名已存在用户名可用失败成功用户访问注册页面填写注册信息前端表单验证显示错误提示提交到后端后端数据验证返回错误信息用户名唯一性检查提示用户名重复密码加密处理保存用户信息保存成功?显示系统错误注册成功跳转登录页面登录认证机制深度解析我实现了一套企业级的多层次安全认证机制：认
Java：数据结构-ArrayList和顺序表（2） blammmp java 数据结构开发语言
一ArrayList的使用1.ArrayList的构造方法第一种（指定容量的构造方法）创建一个空的ArrayList，指定容量为initialCapacity。publicArrayList(intinitialCapacity){if(initialCapacity>0){this.elementData=newObject[initialCapacity];}elseif(initialCap
CMS垃圾回收器和G1垃圾回收器区别_g1cms垃圾回收器区别 2401_89191885 jvm
该类所有的实例都已经被回收，也就是Java堆中不存在该类的任何实例；加载该类的ClassLoader已经被回收；该类对应的java.lang.Class对象没有在任何地方被引用，无法在任何地方通过反射访问该类的方法。3.常见的垃圾回收算法1、Mark-Sweep（标记-清除算法）：（1）思想：标记清除算法分为两个阶段，标记阶段和清除阶段。标记阶段任务是标记出所有需要回收的对象，清除阶段就是清除被标
每日面试题15：如何解决堆溢出？ ℡余晖^ 每日面试题 python 开发语言
在Java应用运行过程中，"java.lang.OutOfMemoryError:Javaheapspace"是最常见的错误之一。无论是高并发的电商大促场景，还是持续运行的后台服务，堆内存溢出都可能导致服务不可用、数据丢失，甚至引发系统崩溃。本文将结合实际排查经验，系统讲解堆溢出的底层逻辑、应急处理流程及长效预防策略。一、堆溢出的本质：内存分配的"收支失衡"Java堆是JVM管理的内存区域，用于存
记录自己第n次面试(n＞3) Warren98 Java 面试 python 职场和发展 java 开发语言服务器 linux
1.Spring Boot可执行JAR的内存分配答：“在Spring Boot可执行JAR中，JVM的内存通常分为两大块：堆（Heap）和栈（Stack）。堆内存：存放对象实例和数组，通过-Xms（初始）和-Xmx（最大）控制。比如java-Xms512m-Xmx1024m-jarapp.jar，表示启动时给512 MB堆，最大可以到1 024 MB。栈内存：每个线程有独立的栈帧，用来保存方法调用
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

HDFS常用shell命令+MapReduce java编程+HBase常用shell命令+Spark python编程(RDD+df)

HDFS Shell 指令说明

文件系统操作命令

-ls 命令

-du 命令

-count 命令

文件操作命令

-mv 命令

-cp 命令

-rm 命令

本地与HDFS交互命令

-put 命令

-copyFromLocal 命令

-moveFromLocal 命令

-getmerge 命令

-cat 命令

-text 命令

-copyToLocal 命令

-moveToLocal 命令

目录管理命令

-mkdir 命令

高级操作命令

-setrep 命令

-touchz 命令

-stat 命令

-tail 命令

权限管理命令

-chmod 命令

-chown 命令

-chgrp 命令

帮助命令

-help 命令

MapReduce (Java)

1. MapReduce 介绍

1.1. MapReduce 设计构思

2. MapReduce 编程规范

Map 阶段 2 个步骤

Shuffle 阶段 4 个步骤

Reduce 阶段 2 个步骤

3. MapReduce 代码示例

例子1：WordMerger - 单词合并去重

例子2：WordCount - 单词计数和句子统计

例子3：SecondarySort - 二次排序

Hbase (Shell)

HBase 数据组织结构

数据模型层级

示例数据存储结构

HBase 常用指令整理

表操作命令

数据操作命令

扫描统计命令

高级操作命令

HBase 常用操作实践

1. 验证表创建情况

list 命令

describe 命令

exists 命令

is_enabled 命令

2. 向表中插入数据

3. 检查数据插入情况

scan 命令

get 命令

4. 删除表

Spark (Python)

一、Spark RDD (弹性分布式数据集) 操作

1. RDD 基本概念

2. 创建RDD

2.1 从本地集合创建

2.2 从文件创建

3. RDD 转换操作 (Transformations)

3.1 基本转换操作

3.2 高级转换操作

3.3 多RDD转换操作

4. RDD 动作操作 (Actions)

5. 键值对 RDD 操作

6. WordCount 示例

二、Spark DataFrame 操作

1. DataFrame 基本概念

2. 创建DataFrame

2.1 从RDD创建DataFrame

`-ls` 命令

`-du` 命令

`-count` 命令

`-mv` 命令

`-cp` 命令

`-rm` 命令

`-put` 命令

`-copyFromLocal` 命令

`-moveFromLocal` 命令

`-getmerge` 命令

`-cat` 命令

`-text` 命令

`-copyToLocal` 命令

`-moveToLocal` 命令

`-mkdir` 命令

`-setrep` 命令

`-touchz` 命令

`-stat` 命令

`-tail` 命令

`-chmod` 命令

`-chown` 命令

`-chgrp` 命令

`-help` 命令