Daniel Muei

大数据处理技术作业——使用HBase&MongoDB&MapReduce进行数据存储和管理

前言

写这篇文章的目的，主要是为了记录一下这次作业历程，并且笔者了解到很多同志饱受作业折磨，遂简单分享一下个人完成作业的历程，以下内容仅为本人的一些乱七八糟的想法，仅作参考O(∩_∩)O

作业要求

1、本作业的链接

【完成本次作业用到的代码文件，列出网盘链接，https://pan.baidu.com/xxx】

2、数据来源及概述

【1．列出数据的下载链接，或者说明数据的采集方法。2．概述数据的背景与内容。3．概述数据的 Volume和 Variety。】

3、数据存储与管理方案

【列出数据存储与管理的设计方案，包括：HBase、MongoDB、MapReduce。】

4、数据存储与管理结果

【1．详述数据存储与管理的结果，详述数据的 Veracity 和 Velocity。2．给出必要的截图，每个图表都要有相应的文字说明。3．列出遇到的问题和解决办法，列出没有解决的问题。】

5、本作业的体会

【完成本次作业的心得体会。】

思路过程

1、本作业的代码文件链接

本次作业代码文件的网盘链接如下：
链接：数据自取
提取码：6666

2、数据来源及概述

本次作业的原始数据是在 kaggle 上找的开源的亚马逊餐饮评论数据集，数据集是由几个学者共同收集的，该数据集包含对亚马逊不同美食的评论。数据跨度超过 10 年，包括截至 2012 年 10 月的所有 500000 条评论。评论包括产品、用户信息、评级和纯文本评论，它还包括来自所有其他亚马逊类别的评论。数据集一共包含 568454 条数据，数据量可观，数据大小(Volume)为 287MB。该数据集包含 10 个属性，分别为序号、产品编号、用户编号、用户名、认为评价有帮助的用户数量、表示评价是否有帮助的用户数量、用户评分、评分时间、评论的概括以及详细评论内容。此外，该数据集为纯文本类型(Variety)，类型单一，原本我打算使用一个图片数据集，但是数据质量不够好，比较杂乱，于是我依然采用文本类型的数据集完成作业。

FoodReviews 亚马逊美食评论数据集概览

3、数据存储与管理方案

HBase

Hbase是一种分布式存储的数据库，内部架构包含ZooKeeper、Master、HDFS，HBase 采用表来组织数据，表由行和列组成，列划分为若干个列族，每个 HBase表都由若干行组成，每个行由行键来标识。选用 HBase 存储并管理数据，HDFS 有
高容错、高扩展的特点，而 Hbase 基于 HDFS 实现数据的存储，因此 Hbase 拥有与生俱来的超强的扩展性和吞吐量。同时，由于 HBase 是一个列式数据库，当单张表字段很多的时候，可以将相同的列存在到不同的服务实例上，分散负载压力。我将数据存储到 HBase 的方案是先将数据上传至 HDFS,以 HDFS 为过渡，再将数据上传至 HBase,因为 HDFS 无法很好地管理数据，故采用 HBase。在对 HBase进行操作时，Zookeeper 会实时监测每个 Region 服务器的状态，当某个 Region服务器发生故障时，Zookeeper 会通知 Master。

MongoDB

MongoDB 是NoSQL类型的数据库，保留了关系型数据库即时查询的能力，保留了索引的能力。这一点汲取了关系型数据库的优点。同时，MongoDB 自身提供了副本集能将数据分布在多台机器上实现冗余，目的是可以提供自动故障转移、扩展读能力，MongoDB 使用分片技术对数据进行扩展，能自动分片、自动转移分片里面的数据块，让每一个服务器里面存储的数据都是一样的大小。在使用 HBase 上传数据后，我没有找到比较合适的可视化工具查看数据导入情况，而且工具的配置相对比较复杂，反观 MongoDB，提供了很多成熟的可视化工具，方便用户管理数据。同时，搭建一个分布式的 HBase 集群,需要进行安装Java、配置 SSH 免密登录、配置 NTP 时钟同步、安装匹配版本的 Hadoop、安装匹配版本的 Zookeeper、安装 HBase 等一系列繁琐操作，而安装 MongoDB 只需要对安装包进行解压,并进行一些必要配置即可。MongoDB 在实际管理数据时可以通过创建索引来提高查询效率，我先将数据上传至 MongoDB，然后在 adminMongo可视化工具对数据进行修改或者整理，实现管理数据的目的。

MapReduce

MapReduce 是一种编程模型，用于大规模数据集的并行运算，指定一个 Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的 Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。使用 MapReduce 自动调度计算节点来处理相应的数据块，作业和任务调度功能主要负责分配和调度计算节点（Map 节点或 Reduce 节点），同时负责监控这些节点的执行状态，并负责 Map 节点执行的同步控制。同时为了减少数据通信开销，中间结果数据进入Reduce 节点前会进行一定的合并处理；一个 Reduce 节点所处理的数据可能会来自多个 Map节点，为了避免 Reduce 计算阶段发生数据相关性，Map 节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个 Reduce 节点。这里我调用 java 接口，实现将 HDFS 中的数据写入到 HBase 中。

4、数据存储与管理结果

HBase

首先采用 HBase 进行数据的存储和管理，将数据集从本地拖入虚拟机中，首先启动 localhost，然后逐步启动 Hadoop 进程和 HBase 进程，先将数据传入 HDFS中，并查看数据集是否已经上传至 HDFS。

上传数据至 HDFS

打开 HDFS 网页查看文件

随后按照林子雨老师的教程安装 HBase。

安装 HBase

安装完成后，启动 HBase，在启动 HBase Shell 时，一开始出现报错 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable，于是我进入首 native 目录，看看目录下有什么东西，我发现 libhadoop.so 存放在这个目录下，接着回到 Hadoop 目录，在 Hadoop 包中搜索发现，java.library.path 被
定义为 JAVA_LIBRARY_PATH，但是我没有定义 JAVA_LIBRARY_PATH。那么问题就好解决了，配置这个环境变量就行，我进入 bashrc 文件中，输入配置环境的命令 export JAVA_LIBRARY_PATH=/usr/local/hadoop/lib/native，保存后重新启动 HBase Shell 报错就消失了。解决了第一个报错后，我进入 Shell 中，先创建一个表，只有一个列簇info，然后输入命令：

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns="HBASE_ROW_KEY,info:Id,info:ProductId,info:UserId,info:ProfileName,info:HelpfulnessNumerator,info:HelpfulnessDenominator,info:Score,info:Time,info:Summary,info:Text" hbase-csv1 hdfs:///user/hadoop/input/FoodReviews.csv

尝试将文件上传至 HBase 中，但是出现报错，这个问题困扰了我很久，在网上找各种解决方案均没用，一直以为是语法问题，抠各种细节，后来才发现上传命令不能在 Shell 里面输入，我退出 Shell 之后再重新输入，成功上传。

上传文件至 HBase 时的报错

待数据上传完成后，我使用 scan 命令查看刚刚存放数据的表，查看的时候一共耗时 564s，速度还算可以(Velocity)；数据内容丰富度是比较高的，准确性好，拥有较高的质量 (Veracity)。我的原始数据是有 50 万行的，但是 scan之后只能看到 10 万行，我猜测这可能是 HBase 查看数据的上限？因为传入 HDFS中的文件大小跟主机中的一样，应该不存在数据损坏或者有部分数据未上传的情况，因此这对我来说是一个疑点。

查看数据过程

查看数据完毕

MongoDB

其次，我使用 MongoDB 进行数据的管理，先将 MongoDB 安装好，这里我采用的是 MongoDB 官网的教程，安装完成后，启动 MongoDB 时出了点问题，报错细节为 Failed to start mongodb service: Unit mongodb.service not found，后来我发现我没有配置好 MongoDB，于是创建配置文件并追加文本，保存后退出重新启动 MongoDB 成功。

安装 MongoDB

查看 MongoDB 版本

随后启动 MongoDB Shell，创建一个新的数据库，命名为 food，为了能使 show dbs 命令出现刚创建的数据库，我插入一条数据并查看，判断没问题之后关闭MongoDB Shell，开始将文件导入 MongoDB。

在 MongoDB 中新建数据库

导入数据文件时，要注意前提是已经启动 MongoDB，并且不需要进入 MongoDB Shell 执行命令，导入成功后显示如下的界面。前几次上传过程会出现报错Failed: fields cannot be identical: '1' and '1'，网上找了原因，可能是csv 格式问题，于是将 excel 文件另存为 utf-8 格式的 csv 格式，重新拖入虚拟机并重新上传，没用。于是另找原因，这时我想到命令有一个参数是--headerline，而我的数据集最顶上的属性行之前被我删了（为了方便上传至HBase），我把它补回去，重新上传，成功了！

将数据导入 MongoDB

将数据导入 MongoDB 后，我想使用可视化工具查看导入情况，于是着手安装mongo-express 和 adminMongo 工具。安装这两个工具都需要先下载 node.js，所以我在本地主机下载好 node.js 相应的版本，然后拖入虚拟机，先在/usr/local路径下创建 node 文件夹，将 node 文件的所有权限赋给 hadoop 用户，随后进入node 目录下，将 node.js 的压缩包复制到该目录下并解压，之后再配置环境，通过 node -v 和 npm -v 命令测试 node 是否安装成功，同时查看对应版本号。

安装 node.js

测试安装后的 node.js

安装了 node.js 后，安装 mongo-express，安装完成并且修改好配置文件后，在火狐浏览器打开 http://localhost:8081，在弹出的对话框中输入默认的用户名和密码 User Name:admin,Password:pass，点击 test 进入查看。

安装 mongo-express

启动 mongo-express

进入 mongo-express 交互界面

mongo-express 界面概览

mongo-express mongo-express 二级界面

然而我个人更喜欢 adminMongo 的界面，因此我又安装了 adminMongo，安装完成后将其启动，并在浏览器中输入 http://0.0.0.0:1234，在弹出的页面中Connection name 输入 mongodb，Connection string 输入 mongodb://127.0.0.1，
点击 Add connection，最后点击 connect 进行数据查看。可以看到，数据完美地展现出来，跟 csv 文件中的一致，内容丰富，质量高，适合用于数据挖掘和数据分析(Veracity)，但我还未尝试过，打算后续用 python 分析一下数据。

安装并启动 adminMongo

adminMongo 交互界面

adminMongo 数据库查看界面

adminMongo 详细数据查看界面

MapReduce

其实在前面将数据传入 HBase 的时候，已经间接地使用了 MapReduce，对数据进行一些计算，保证上传成功。我在 HBase 创建一个新的表，然后将 HDFS 中的文件导入至 HBase 中，这里我使用 Eclipse 进行实现，通过调用 java API，对数据进行管理。
（1）新建类用于读取 HDFS 上的数据

package com.xzw.hbase_mr;
 
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import java.io.IOException;
 

public class ScanDataMapper extends TableMapper<ImmutableBytesWritable, Put> {
    @Override
    protected void map(ImmutableBytesWritable key, Result result, Context context) throws IOException,
            InterruptedException {
        //运行Mapper，查询数据
        Put put = new Put(key.get());
 
        for (Cell cell :
                result.rawCells()) {
            put.addColumn(
                    CellUtil.cloneFamily(cell),
                    CellUtil.cloneQualifier(cell),
                    CellUtil.cloneValue(cell)
            );
        }
 
        context.write(key, put);
    }
}

（2）新建类用于将读到的数据写入 HBase 表

package com.xzw.hbase_mr;
 
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.io.NullWritable;
import java.io.IOException;
 

public class InsertDataReducer extends TableReducer<ImmutableBytesWritable, Put, NullWritable> {
    @Override
    protected void reduce(ImmutableBytesWritable key, Iterable<Put> values, Context context) throws IOException,
            InterruptedException {
        //运行Reducer，增加数据
        for (Put put :
                values) {
            context.write(NullWritable.get(), put);
        }
 
    }
}

（3）新建类用于组装运行 job 任务

package com.xzw.hbase_mr;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.JobStatus;
import org.apache.hadoop.util.Tool;


public class HBaseMapperReduceTool implements Tool {
    public int run(String[] strings) throws Exception {
        //作业
        Job job = Job.getInstance();
        job.setJarByClass(HBaseMapperReduceTool.class);
 
        //mapper
        TableMapReduceUtil.initTableMapperJob(
                "xzw:people",
                new Scan(),
                ScanDataMapper.class,
                ImmutableBytesWritable.class,
 
                Put.class,
                job
        );
 
        //reducer
        TableMapReduceUtil.initTableReducerJob(
                "xzw:user",
                InsertDataReducer.class,
                job
        );
 
        //执行作业
        boolean b = job.waitForCompletion(true);
 
        return b ? JobStatus.State.SUCCEEDED.getValue(): JobStatus.State.FAILED.getValue();
    }
 
    public void setConf(Configuration configuration) {
 
    }
 
    public Configuration getConf() {
        return null;
    }
}

（4）新建类用于启动程序

package com.xzw.hbase_mr;
 
import org.apache.hadoop.util.ToolRunner;
 

public class T2TApplication {
    public static void main(String[] args) throws Exception {
        ToolRunner.run(new HBaseMapperReduceTool(), args);
    }
}

五、本作业的体会

完成了第二次的大数据处理作业后，我感慨万千。这次作业耗费了我几乎一周的时间，完成作业前，我没想到它的繁琐程度会这么大。可能是还不熟悉 Linux 系统，我在使用虚拟机的时候频频报错，上传数据总是不能非常顺利，这非常考验耐心和毅力，因此我认为磨练意志是本次作业的一大收获。此外，通过完成此次作业，我对虚拟机的各种操作和命令更加熟悉了，之前还经常需要查看命令怎么写、怎么用，现在已经熟练到直接在终端敲就行了，我慢慢感悟到了 Linux 的魅力，虽然说操作上还是不太适应，但我感受到了这个系统的自由度，以及它的强大性。希望通过不断与数据打交道，我能有朝一日真正驾驭它。

生产环境使用云服务器（centOS）部署和使用MongoDB
部署MongoDB流程1.安装MongoDB版本选择建议CentOS7：推荐MongoDB4.4.x（兼容性好）CentOS8/9：建议最新稳定版（如6.0+），需单独安装mongodb-database-tools安装步骤1.添加官方仓库#添加官方仓库（以6.0为例）sudovi/etc/yum.repos.d/mongodb-org-6.0.repo写入以下内容：[mongodb-org-6.
Hbase基础语法 flyair_China hbase 数据库大数据
HBase作为分布式列式数据库，其语法和预分区策略是优化性能的关键。以下综合语法详解与预分区设计指南：一、HBase核心语法分类1.DDL操作（表结构管理）创建表语法：create'表名',{NAME⇒'列族1',VERSIONS⇒n},{NAME⇒'列族2',VERSIONS⇒n}示例：创建user表，含info（保留3版本）和data（保留1版本）列族：create'user',{NAME⇒'
常见的未授权访问如：Redis,MongoDb,Memcached,Jenkins,Jupyter NoteBook,Elasticsearch,Kibana等二十四个靶场复现终焉暴龙王安全网络 web安全
前言这这篇文章中我会记录24种常见的未授权访问漏洞的靶场复现，如果有错误，欢迎大家指正。在本文中，漏洞复现的靶场完全是靠自己搭建的vulhub-master以及一系列的靶场以及fofa搜索，如果之前没有用过vulhub-master靶场，请先搭建好vulhub-master靶场并且安装docker和docker-compose。另外，其中一些涉及到敏感信息的漏洞复现我就不截图了，大家切记要树立好法
数据库管理工具Navicat Premium 12 mythmayor Tools 数据库数据库管理工具数据库管理 Navicat Premium Navicat
转载请注明出处：https://blog.csdn.net/mythmayor/article/details/89560919NavicatPremium是一套多连接数据库开发工具，让你在单一应用程序中同时连接多达七种数据库：MySQL、MariaDB、MongoDB、SQLServer、SQLite、Oracle和PostgreSQL，可一次快速方便地访问所有数据库。安装包及破解教程下载：已将
MongoDB的内存和核心数对于运行效率的影响 LCY133 spring后端 mongodb 数据库
在MongoDB线上生产环境中，CPU（核心）和内存是两大关键硬件资源，它们在不同的操作场景下发挥着核心作用，共同影响着数据库的性能、稳定性和扩展性。理解它们的作用场景至关重要，是容量规划、性能优化和故障排查的基础。以下是它们在主要场景中的作用详解：CPU（核心）的核心作用场景CPU主要负责计算密集型任务和协调管理：查询执行与优化器工作：复杂查询解析与优化：查询路由（mongos）、查询优化器（选
四个小型，开源数据库（sqlite，mysql，redis，mongodb）半斗烟草 python数据库数据库
前言sqlite，mysql，redis，mongodb四个数据认识笔记四个数据库的详细介绍，请看博客：https://www.cnblogs.com/pungchur/p/14086915.html一、四个数据的安装ubuntuapt更换国内源:step1:vi/etc/apt/sources.list,内容：https://www.cnblogs.com/dream4567/p/9690850
大数据编程基础芝麻开门-新的起点大数据大数据
3.1Java基础（重点）内容讲解Java是大数据领域最重要的编程语言之一。Hadoop、HBase、Elasticsearch等众多核心框架都是用Java开发的。因此，扎实的Java基础对于深入理解这些框架的底层原理和进行二次开发至关重要。为什么Java在大数据领域如此重要？生态系统：Hadoop生态系统原生就是Java构建的，使用Java进行开发可以无缝集成。跨平台性：Java的“一次编译，到
MySql数据库基础
数据库相关概念•数据库是按数据结构组织、存储和管理数据的仓库，本质是文件系统；数据库管理系统是操纵和管理数据库的大型软件，用户和管理员通过它访问和维护数据库。•介绍了关系型数据库管理系统（如MySQL、Oracle等）和NoSQL数据库（如Redis、MongoDB等），前者基于关系模型用表格存储数据，后者非关系型，有键值、列族等多种类型。MySQL简介与安装配置•MySQL是开源的关系型数据库管
深入解析HBase如何保证强一致性：WAL日志与MVCC机制码字的字节 hadoop布道师 hadoop HBase WAL MVCC
HBase强一致性的重要性在分布式数据库系统中，强一致性是确保数据可靠性和系统可信度的核心支柱。作为Hadoop生态系统中关键的列式存储数据库，HBase需要处理金融交易、实时风控等高敏感场景下的海量数据操作，这使得强一致性成为其设计架构中不可妥协的基础特性。分布式环境下的数据一致性挑战在典型的HBase部署环境中，数据被分散存储在多个RegionServer节点上，同时面临以下核心挑战：1.跨节
Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
阿里云MaxCompute SQL与Apache Hive区别面面观大模型大数据攻城狮阿里云 odps sql 物化 maxcompute udf开发 sql语法
目录1.引爆开场：MaxCompute和Hive，谁才是大数据SQL的王者？2.架构大比拼：从Hadoop到Serverless的进化之路Hive的架构：老派但经典MaxCompute的架构：云原生新贵3.SQL语法的微妙差异：90%相似，10%决定胜负建表语句分区与分桶函数与UDF4.执行引擎的较量：MapReducevs飞天引擎Hive的MapReduce执行流程MaxCompute的飞天引擎
MongoDB 操作语法
一：MongoDB修改一个字段db.hn_assistant.update({},{$set:{'verify_status':1}},{multi:true});hn_assistant:集合名{}：查询条件verify_status:字段名{multi:true}:修改所有二：MongoDB删除一个字段db.hn_assistant.update({},{$unset:{'response':
DBeaverEE连接MongoDB-4.2.8 广彐水厂大数据 mongodb linux 数据库
前置准备CentOS7、mongodb-4.2.8、DBeaverEE-6.3.0想要完成本期视频中所有操作，需要以下准备：MongoDB安装及基本使用-视频教程一、配置修改进入MongoDB安装目录的bin目录，新增mongodb.conf文件，文件内容如下#bind_ip标识允许连接的客户端IP地址，此处设为0.0.0.0，表示允许所有机器连接。也可设置特定机器的IPbind_ip=0.0.0
debeaver22添加mongodb驱动
给大家整理了一些有关【Java,数据库】的项目学习资料（附讲解～～）：https://edu.51cto.com/course/35714.htmlhttps://edu.51cto.com/course/30635.html以一些关于【数据库】的学习资料和大家一起分享一下：https://edu.51cto.com/video/27688.html在DBeaver中添加MongoDB驱动的指南D
Springboot+MongoDB简单使用示例
一、maven中添加依赖org.springframework.bootspring-boot-starter-data-mongodb二、配置文件中添加连接spring:mongodb:host:192.168.56.10port:27017database:share#指定操作的数据库三、创建mongodb文档对应的实体类@Data@Schema(description="站点位置")publ
SpringBoot整合Fastexcel/EasyExcel导出Excel导出单个图片 java初学者分享 excel
整个工具的代码都在Gitee或者Github地址内gitee：solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、reids、Mqtt、S3协议的文件服务器、mongodb、xxl-job、powerjob还有用Dockercompose部署各类中间组件。如果大家有什么想要弄成通用组件的，可以给我留言，我可以研究下github：http
一文说清楚Hive
Hive作为ApacheHadoop生态的核心数据仓库工具，其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。一、Hive底层分布式计算框架对比Hive本身不直接执行计算，而是将HQL转换为底层计算引擎的任务。目前支持的主流引擎及其特点如下：计算引擎核心原理优点缺点适用场景MapReduce基于“Map→Shuffle→R
【DBeaver 安装 MongoDB 插件】
手动添加驱动（适用于网络受限或特定版本需求）1、安装dbeaver2、下载驱动文件从MongoDBJavaDriver官网下载最新版.jar文件（如mongo-java-driver-3.12.14.jar）26。下载链接：通过网盘分享的文件：mongodb-driver.zip链接:https://pan.baidu.com/s/1OcZ3k8YfOUezYlA2qBByCQ提取码:wy2h把插
HBase 简介
HBase简介什么是HBaseApacheHBase是Hadoop数据库，一个分布式的、可伸缩的大数据存储。当您需要对大数据进行随机的、实时的读/写访问时，请使用ApacheHBase。这个项目的目标是在商品硬件的集群上托管非常大的表——数十亿行百万列的列。ApacheHBase是一个开源的、分布式的、版本化的、非关系的数据库，它模仿了Google的Bigtable：一个结构化数据的分布式存储系统
MYSQL 知识点总结代码o>_ mysql 数据库 nosql
第一章MYSQL基础数据库（database）是一个按照结构来组织存储和管理数据的仓库一般由软件，数据库和管理员组成。数据模型：数据库由层次，网状，关系，面向对象，NOSQL五个模型组成数据库系统：一般由软件,数据库和管理员组成。当前主流的数据库：MySQL，Oracle，SQLServer，PostgreSQL，MongoDB,Redis当前使用较多是MySQL，版本为5.7MySQL的特点：运
Hbase简介三五a hbase 数据库大数据
一.非关系型数据库：1.1介绍：非关系型数据库（NoSQLDatabase）是相对于传统关系型数据库而言的一类新型数据库技术，其设计目的是解决大规模数据存储、高并发访问、灵活数据结构等场景下的问题。与关系型数据库（如MySQL、Oracle）依赖固定表结构和SQL查询不同，非关系型数据库通常采用更灵活的数据模型，且不强制遵循ACID（原子性、一致性、隔离性、持久性）事务特性的严格约束。1.2分类：
玩转 Milvus（一）：解锁向量数据库的秘密，拥抱Milvus 不学无术の码农玩转 Milvus：向量搜索与 AI 实践 milvus 向量数据库
引言：向量数据库，AI时代的“超级引擎”想象一下，你上传一张猫咪照片，系统瞬间从百万张图片中挑出最相似的几张；或者在购物APP中点开一件T恤，推荐栏立刻展示你心动的搭配。这些智能体验的背后，藏着一个秘密武器——高维向量。通过深度学习模型，文本、图像、音频被转化为一串数字，捕捉它们的“灵魂”。但如何在海量向量中快速找到“最像”的那一个？传统数据库如MySQL或MongoDB束手无策，而向量数据库横空
三种主流数据库特点和作用（看看你用的哪种？）恩比贤AmbitioN 算法 java spring maven spring boot
以下是对MySQL、MongoDB和Redis三种主流数据库的详细介绍，涵盖其特点、优势以及适用场景，内容尽量丰富以满足需求。1.MySQL特点MySQL是一种开源的关系型数据库管理系统（RDBMS），基于表格存储数据，使用结构化查询语言（SQL）进行操作。它最初由瑞典公司MySQLAB开发，现由Oracle维护。MySQL以其高性能、可靠性和易用性闻名，广泛应用于Web开发、企业应用和数据分析场
快速梳理遗留项目 lixzest python java c++
梳理一个别人写的代码项目是开发者常遇到的任务，尤其是接手遗留项目或团队协作时。以下是系统化的步骤和技巧，帮助快速理解项目结构和逻辑：1.了解项目背景项目目标：与产品经理或前任开发者沟通，明确项目用途（如电商系统、数据分析工具等）。技术栈：确认语言（Python/Java/Go等）、框架（Spring/Django/React等）、数据库（MySQL/MongoDB等）。文档检查：优先阅读READM
Zookeeper简单入门灬哆啦A梦不吃鱼
zookeeper简介ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时ApacheHBase、ApacheSolr、LinkedInSensei等众多项目中都采用了ZooKeeper。ZooKeeper曾是Hadoop的正式子项目，后发展成为Apache顶级项目，与Hadoop密切相关但却没有任何依赖。它是一个针对大型应用
jsch连接Linux工具类 aisi5339 ui java
importcom.alibaba.fastjson.JSONObject;importcom.jcraft.jsch.*;importorg.slf4j.Logger;importorg.slf4j.LoggerFactory;importjava.io.*;/***Createdbysolonon2017/3/1.*远程调用工具*/publicclassSSHBase{Stringhost;S
k8s-MongoDB 副本集部署 __Smile° kubernetes 容器云原生
前提准备一套k8s集群worker节点上的/nfs/data目录挂载到磁盘一、NFS高可用方案（NFS+keepalived+Sersync）本方案NFS的高可用方案，应用服务器为Client，两台文件服务器分别Master和Slave，使用keepalived生成一个虚拟IP，使用Sersync进行Master与Slave之间文件相互同步，确保高可用。安装前准备角色系统版本IP虚拟ip（Vip）
解锁Hive：高效数据查找的秘密武器 YangRyeon hive hadoop 数据仓库
Hive是什么？Hive是基于Hadoop的一个数据仓库工具，它能够进行数据提取、转化和加载操作，为存储、查询和分析Hadoop中的大规模数据提供了有效的机制。Hive能将结构化的数据文件映射为一张数据库表，让用户可以通过熟悉的SQL查询功能来处理数据。其内部机制是将SQL语句巧妙地转变成MapReduce任务来执行，大大降低了开发的难度和复杂性。例如，在面对海量的用户行为日志数据时，Hive就能
MongoDB：通过mongodump【时间一致性】备份，快速创建secondary复制集节点——更精简的方式2... weixin_33727510 数据库
该方式优点：快速通过mongodump初始化数据库，大大减少新的secondary节点从头开始初始化的风险：网络壅塞、oplog.rs过期、耗时太长等。还原的关键：一致性mongodump备份+local.oplog.rs包含备份完成时的最后时点的timestamp-h日志+local.system.replset初始化配置信息具体的操作：-----------------------------
MongoDB中的THP是什么-核心解决频繁断线居然是关闭THP-THP原理以及MongoDB版本号的关系-卓伊凡|糖果卓伊凡数据库开发相关知识专栏 mongodb 数据库
MongoDB中的THP是什么-核心解决频繁断线居然是关闭THP-THP原理以及MongoDB版本号的关系-卓伊凡|糖果ngineto‘wiredTiger’.2025-07-22T17:05:20.228+0800WSTORAGE[initandlisten]Recoveringdatafromthelastcleancheckpoint.2025-07-22T17:05:20.228+0800
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

大数据处理技术作业——使用HBase&MongoDB&MapReduce进行数据存储和管理

前言

作业要求

1、本作业的链接

2、数据来源及概述

3、数据存储与管理方案

4、数据 存储与管理结果

5、本作业的体会

思路过程

1、本作业的代码文件链接

2、数据来源及概述

3、数据存储与管理方案

HBase

MongoDB

MapReduce

4、数据存储与管理结果

HBase

MongoDB

MapReduce

五 、 本作业的体会

你可能感兴趣的:(mapreduce,hbase,mongodb)

4、数据存储与管理结果

五、本作业的体会