yirenboy

Hadoop入门进阶课程4--HDFS原理及操作

【注】该系列课程是应邀实验楼整理编写的，这里需要赞一下实验楼提供了学习的新方式，可以边看博客边上机实验，课程地址为 https://www.shiyanlou.com/courses/237

1 环境说明

部署节点操作系统为CentOS，防火墙和SElinux禁用，创建了一个shiyanlou用户并在系统根目录下创建/app目录，用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序，用户对shiyanlou必须赋予rwx权限（一般做法是root用户在根目录下创建/app目录，并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanlou /app）。

Hadoop搭建环境：

虚拟机操作系统： CentOS6.6 64位，单核，1G内存
JDK：1.7.0_55 64位
Hadoop：1.1.2

2 HDFS原理

HDFS（Hadoop Distributed File System）是一个分布式文件系统，是谷歌的GFS山寨版本。它具有高容错性并提供了高吞吐量的数据访问，非常适合大规模数据集上的应用，它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
- 高吞吐量访问：HDFS的每个Block分布在不同的Rack上，在用户访问时，HDFS会计算使用最近和访问量最小的服务器给用户提供。由于Block在不同的Rack上都有备份，所以不再是单数据访问，所以速度和效率是非常快的。另外HDFS可以并行从服务器集群中读写，增加了文件读写的访问带宽。
- 高容错性：系统故障是不可避免的，如何做到故障之后的数据恢复和容错处理是至关重要的。HDFS通过多方面保证数据的可靠性，多份复制并且分布到物理位置的不同服务器上，数据校验功能、后台的连续自检数据一致性功能都为高容错提供了可能。
- 线性扩展：因为HDFS的Block信息存放到NameNode上，文件的Block分布到DataNode上，当扩充的时候仅仅添加DataNode数量，系统可以在不停止服务的情况下做扩充，不需要人工干预。

2.1 HDFS架构

如上图所示HDFS是Master和Slave的结构，分为NameNode、Secondary NameNode和DataNode三种角色。
- NameNode：在Hadoop1.X中只有一个Master节点，管理HDFS的名称空间和数据块映射信息、配置副本策略和处理客户端请求；
- Secondary NameNode：辅助NameNode，分担NameNode工作，定期合并fsimage和fsedits并推送给NameNode，紧急情况下可辅助恢复NameNode；
- DataNode：Slave节点，实际存储数据、执行数据块的读写并汇报存储信息给NameNode；

2.2 HDFS读操作

客户端通过调用FileSystem对象的open()方法来打开希望读取的文件，对于HDFS来说，这个对象时分布文件系统的一个实例；
DistributedFileSystem通过使用RPC来调用NameNode以确定文件起始块的位置，同一Block按照重复数会返回多个位置，这些位置按照Hadoop集群拓扑结构排序，距离客户端近的排在前面；
前两步会返回一个FSDataInputStream对象，该对象会被封装成DFSInputStream对象，DFSInputStream可以方便的管理datanode和namenode数据流，客户端对这个输入流调用read()方法；
存储着文件起始块的DataNode地址的DFSInputStream随即连接距离最近的DataNode，通过对数据流反复调用read()方法，可以将数据从DataNode传输到客户端；
到达块的末端时，DFSInputStream会关闭与该DataNode的连接，然后寻找下一个块的最佳DataNode，这些操作对客户端来说是透明的，客户端的角度看来只是读一个持续不断的流；
一旦客户端完成读取，就对FSDataInputStream调用close()方法关闭文件读取。

2.3 HDFS写操作

客户端通过调用DistributedFileSystem的create()方法创建新文件；
DistributedFileSystem通过RPC调用NameNode去创建一个没有Blocks关联的新文件，创建前NameNode会做各种校验，比如文件是否存在、客户端有无权限去创建等。如果校验通过，NameNode会为创建新文件记录一条记录，否则就会抛出IO异常；
前两步结束后会返回FSDataOutputStream的对象，和读文件的时候相似，FSDataOutputStream被封装成DFSOutputStream，DFSOutputStream可以协调NameNode和Datanode。客户端开始写数据到DFSOutputStream，DFSOutputStream会把数据切成一个个小的数据包，并写入内部队列称为“数据队列”(Data Queue)；
DataStreamer会去处理接受Data Queue，它先问询NameNode这个新的Block最适合存储的在哪几个DataNode里，比如重复数是3，那么就找到3个最适合的DataNode，把他们排成一个pipeline.DataStreamer把Packet按队列输出到管道的第一个Datanode中，第一个DataNode又把Packet输出到第二个DataNode中，以此类推；
DFSOutputStream还有一个对列叫Ack Quene，也是有Packet组成，等待DataNode的收到响应，当Pipeline中的所有DataNode都表示已经收到的时候，这时Akc Quene才会把对应的Packet包移除掉；
客户端完成写数据后调用close()方法关闭写入流；
DataStreamer把剩余的包都刷到Pipeline里然后等待Ack信息，收到最后一个Ack后，通知NameNode把文件标示为已完成。

2.4 HDFS中常用到的命令

1. hadoop fs

hadoop fs -ls /
hadoop fs -lsr
hadoop fs -mkdir /user/hadoop
hadoop fs -put a.txt /user/hadoop/
hadoop fs -get /user/hadoop/a.txt /
hadoop fs -cp src dst
hadoop fs -mv src dst
hadoop fs -cat /user/hadoop/a.txt
hadoop fs -rm /user/hadoop/a.txt
hadoop fs -rmr /user/hadoop/a.txt
hadoop fs -text /user/hadoop/a.txt
hadoop fs -copyFromLocal localsrc dst 与hadoop fs -put功能类似。
hadoop fs -moveFromLocal localsrc dst 将本地文件上传到hdfs，同时删除本地文件。

2. hadoop fsadmin
- hadoop dfsadmin -report
- hadoop dfsadmin -safemode enter | leave | get | wait
- hadoop dfsadmin -setBalancerBandwidth 1000

3. hadoop fsck

4. start-balancer.sh

相关HDFS API可以到Apache官网进行查看：

3 测试例子1

3.1 测试例子1内容

在Hadoop集群中编译并运行《权威指南》中的例3.2，读取HDFS文件内容。

3.2 运行代码

import java.io.InputStream;

import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;

public class FileSystemCat {
    public static void main(String[] args) throws Exception {
        String uri = args[0];
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem. get(URI.create (uri), conf);
        InputStream in = null;
    try {
            in = fs.open( new Path(uri));
            IOUtils.copyBytes(in, System.out, 4096, false);
        } finally {
            IOUtils.closeStream(in);
        }
    }
}

3.3 实现过程

3.3.1 创建代码目录

配置本机主机名为hadoop，sudo时需要输入shiyanlou用户的密码：shiyanlou。将hadoop添加到第一行的最后。

sudo vim /etc/hosts
# 将hadoop添加到第一行末尾，修改后类似：
# 172.17.2.98 f738b9456777 hadoop
ping hadoop

使用如下命令启动Hadoop

cd /app/hadoop-1.1.2/bin
./start-all.sh

在/app/hadoop-1.1.2目录下使用如下命令建立myclass和input目录：

cd /app/hadoop-1.1.2
rm -rf myclass
rm -rf input
mkdir myclass
mkdir input

3.3.2 建立例子文件上传到HDFS中

进入/app/hadoop-1.1.2/input目录，在该目录中建立quangle.txt文件

cd /app/hadoop-1.1.2/input
touch quangle.txt
vi quangle.txt

内容为：

On the top of the Crumpetty Tree
The Quangle Wangle sat,
But his face you could not see,
On account of his Beaver Hat.

使用如下命令在hdfs中建立目录/class4

hadoop fs -mkdir /class4
hadoop fs -ls /

（如果需要直接使用hadoop命令，需要把/app/hadoop-1.1.2加入到Path路径中）

把例子文件上传到hdfs的/class4文件夹中

cd /app/hadoop-1.1.2/input
hadoop fs -copyFromLocal quangle.txt /class4/quangle.txt
hadoop fs -ls /class4

3.3.3 配置本地环境

对/app/hadoop-1.1.2/conf目录中的hadoop-env.sh进行配置，如下如所示：

cd /app/hadoop-1.1.2/conf
sudo vi hadoop-env.sh

加入对HADOOP_CLASPATH变量值，值为/app/hadoop-1.1.2/myclass，设置完毕后编译该配置文件，使配置生效

export HADOOP_CLASSPATH=/app/hadoop-1.1.2/myclass

3.3.4 编写代码

进入/app/hadoop-1.1.2/myclass目录，在该目录中建立FileSystemCat.java代码文件，命令如下：

cd /app/hadoop-1.1.2/myclass/
vi FileSystemCat.java

输入代码内容：

3.3.5 编译代码

在/app/hadoop-1.1.2/myclass目录中，使用如下命令编译代码：

javac -classpath ../hadoop-core-1.1.2.jar FileSystemCat.java

3.3.6 使用编译代码读取HDFS文件

使用如下命令读取HDFS中/class4/quangle.txt内容：

hadoop FileSystemCat /class4/quangle.txt

4 测试例子2

4.1 测试例子2内容

在本地文件系统生成一个大约100字节的文本文件，写一段程序读入这个文件并将其第101-120字节的内容写入HDFS成为一个新文件。

4.2 运行代码

注意：在编译前请先删除中文注释！
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.OutputStream;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;

public class LocalFile2Hdfs {
    public static void main(String[] args) throws Exception {

        // 获取读取源文件和目标文件位置参数
        String local = args[0];
        String uri = args[1];

        FileInputStream in = null;
        OutputStream out = null;
        Configuration conf = new Configuration();
        try {
            // 获取读入文件数据
            in = new FileInputStream(new File(local));

            // 获取目标文件信息
            FileSystem fs = FileSystem.get(URI.create(uri), conf);
            out = fs.create(new Path(uri), new Progressable() {
                @Override
                public void progress() {
                    System.out.println("*");
                }
            });

            // 跳过前100个字符
            in.skip(100);
            byte[] buffer = new byte[20];

            // 从101的位置读取20个字符到buffer中
            int bytesRead = in.read(buffer);
            if (bytesRead >= 0) {
                out.write(buffer, 0, bytesRead);
            }
        } finally {
            IOUtils.closeStream(in);
            IOUtils.closeStream(out);
        }       
    }
}

4.3 实现过程

4.3.1 编写代码

进入/app/hadoop-1.1.2/myclass目录，在该目录中建立LocalFile2Hdfs.java代码文件，命令如下：

cd /app/hadoop-1.1.2/myclass/
vi LocalFile2Hdfs.java

输入代码内容：

4.3.2 编译代码

在/app/hadoop-1.1.2/myclass目录中，使用如下命令编译代码：

javac -classpath ../hadoop-core-1.1.2.jar LocalFile2Hdfs.java

4.3.3 建立测试文件

进入/app/hadoop-1.1.2/input目录，在该目录中建立local2hdfs.txt文件

cd /app/hadoop-1.1.2/input/
vi local2hdfs.txt

内容为：

Washington (CNN) -- Twitter is suing the U.S. government in an effort to loosen restrictions on what the social media giant can say publicly about the national security-related requests it receives for user data.
The company filed a lawsuit against the Justice Department on Monday in a federal court in northern California, arguing that its First Amendment rights are being violated by restrictions that forbid the disclosure of how many national security letters and Foreign Intelligence Surveillance Act court orders it receives -- even if that number is zero.
Twitter vice president Ben Lee wrote in a blog post that it's suing in an effort to publish the full version of a "transparency report" prepared this year that includes those details.
The San Francisco-based firm was unsatisfied with the Justice Department's move in January to allow technological firms to disclose the number of national security-related requests they receive in broad ranges.

4.3.4 使用编译代码上传文件内容到HDFS

使用如下命令读取local2hdfs第101-120字节的内容写入HDFS成为一个新文件：

cd /app/hadoop-1.1.2/input
hadoop LocalFile2Hdfs local2hdfs.txt /class4/local2hdfs_part.txt

4.3.5 验证是否成功

使用如下命令读取local2hdfs_part.txt内容：

hadoop fs -cat /class4/local2hdfs_part.txt

5 测试例子3

5.1 测试例子3内容

测试例子2的反向操作，在HDFS中生成一个大约100字节的文本文件，写一段程序读入这个文件，并将其第101-120字节的内容写入本地文件系统成为一个新文件。

5.2 程序代码

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.OutputStream;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

public class Hdfs2LocalFile {
    public static void main(String[] args) throws Exception {

        String uri = args[0];
        String local = args[1];

        FSDataInputStream in = null;
        OutputStream out = null;
        Configuration conf = new Configuration();
        try {
            FileSystem fs = FileSystem.get(URI.create(uri), conf);
            in = fs.open(new Path(uri));
            out = new FileOutputStream(local);

            byte[] buffer = new byte[20];
            in.skip(100);
            int bytesRead = in.read(buffer);
            if (bytesRead >= 0) {
                out.write(buffer, 0, bytesRead);
            }
        } finally {
            IOUtils.closeStream(in);
            IOUtils.closeStream(out);
        }   
    }
}

5.3 实现过程

5.3.1 编写代码

进入/app/hadoop-1.1.2/myclass目录，在该目录中建立Hdfs2LocalFile.java代码文件，命令如下：

cd /app/hadoop-1.1.2/myclass/
vi Hdfs2LocalFile.java

输入代码内容：

5.3.2 编译代码

在/app/hadoop-1.1.2/myclass目录中，使用如下命令编译代码：

javac -classpath ../hadoop-core-1.1.2.jar Hdfs2LocalFile.java

5.3.3 建立测试文件

进入/app/hadoop-1.1.2/input目录，在该目录中建立hdfs2local.txt文件

cd /app/hadoop-1.1.2/input/
vi hdfs2local.txt

内容为：

The San Francisco-based firm was unsatisfied with the Justice Department's move in January to allow technological firms to disclose the number of national security-related requests they receive in broad ranges.
"It's our belief that we are entitled under the First Amendment to respond to our users' concerns and to the statements of U.S. government officials by providing information about the scope of U.S. government surveillance -- including what types of legal process have not been received," Lee wrote. "We should be free to do this in a meaningful way, rather than in broad, inexact ranges."

在/app/hadoop-1.1.2/input目录下把该文件上传到hdfs的/class4/文件夹中

hadoop fs -copyFromLocal hdfs2local.txt /class4/hdfs2local.txt
hadoop fs -ls /class4/

5.3.4 使用编译代码把文件内容从HDFS输出到文件系统中

使用如下命令读取hdfs2local.txt第101-120字节的内容写入本地文件系统成为一个新文件：

hadoop Hdfs2LocalFile /class4/hdfs2local.txt hdfs2local_part.txt

5.3.5 验证是否成功

使用如下命令读取hdfs2local_part.txt内容：

cat hdfs2local_part.txt

三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
亚马逊广告进阶指南：广告转化的深层逻辑 2501_92052613 人工智能
”为什么广告点击量很高但转化率始终上不去？“”如何在不增加预算的情况下降低ACOS？“”自动广告和手动广告到底哪种更适合新品？“”明明出价很高为什么广告排名还是上不去？“”广告数据每天波动很大，怎样才能科学分析？“这些问题看似独立，实则都指向一个核心——亚马逊广告的转化逻辑。作为从业多年的广告优化师，我想通过这篇文章，带大家深层次揭秘亚马逊广告的转化机制，并分享我们团队是如何通过科学方法实现ACO
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
零基础学习性能测试第八章：高并发-redis缓存架构介绍试着性能测试缓存学习 redis 性能测试零基础
目录一、Redis在高并发中的核心价值二、Redis核心架构模式▶1.缓存穿透防御架构▶2.热点数据多级缓存三、Redis集群高可用方案▶1.RedisCluster分片架构▶2.读写分离方案四、Redis性能压测实战▶1.基准测试工具▶2.关键性能指标五、典型瓶颈分析与优化案例1：缓存雪崩案例2：热Key阻塞六、电商秒杀实战架构七、必须掌握的进阶技巧八、学习路径与工具推荐以下是为零基础学习者设计
Java朴实无华按天计划从入门到实战（强化速战版-66天）岫珩 Java 后端 java 开发语言学习 Java 时间安排学习计划
致敬读者感谢阅读笑口常开生日快乐⬛早点睡觉博主相关博主信息博客首页专栏推荐活动信息文章目录Java朴实无华按天计划从入门到实战（强化速战版-66天）1.基础（18）1.1JavaSE核心（5天）1.2数据库与SQL（5天）1.3前端基础（8天）2.进阶（17天）2.1JavaWeb核心（5天）2.2Mybatis与Spring全家桶（6天）2.3中间件入门（4天）2.4实践项目（2天）3.高阶（1
GCD如何多个异步任务,最后返回的时候同步执行 Adam_潜
用信号量+group算是进阶应用https://www.jianshu.com/p/24ffa819379c
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
Unity_UI_NGUI_DrawCall BuHuaX Unity unity ui 游戏引擎 c#游戏程序
Unity_UI五、NGUI进阶2.DrawCall相关2.1DrawCall的概念DrawCall定义：字面理解：DrawCall就是"绘制呼叫"的意思，表示CPU（中央处理器）通知GPU（图形处理器-显卡）开始渲染概念定义：DrawCall是CPU（处理器）准备好渲染数据（包括顶点、纹理、法线、Shader等等），然后告知GPU（图形处理器-显卡）开始渲染（将命令放入命令缓冲区）的命令简单来说
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
王丁益0611打卡情况【300/360】王炜_cf15
打卡日期：2019年/6月11/日体重：43kg身高：150cm打卡累计天数：300/360宣言：（用生命影响生命，陪伴孩子成长，构建和谐亲子关系）【加油，逗哥】孩子第四个90天目标：养成自己安排青蛙事项，番茄工作法进阶保证睡眠时长和定期运动，和好朋友分享如何用番茄工作法吃青蛙洗漱5分钟内完成，自己穿衣起床时间控制在5分钟内早上起床和晚上洗澡都使用计时工具，对自己的时间进行有效的把控*早睡21:0
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
Spring框架深度解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）、《解密程序员的思维密码——沟通、演讲、思考的实践》作者、清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队
Spring框架核心技术解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）、《解密程序员的思维密码——沟通、演讲、思考的实践》作者、清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队
并发编程与MyBatis精髓 AIHacksCash Java场景面试宝典 Concurrency Java Database Framework
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere核心技术解析 AIHacksCash Java场景面试宝典 ShardingSphere Distributed Database Database Sharding
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere架构解析 AIHacksCash Java场景面试宝典 ShardingSphere Distributed Database Database Sharding
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
PostgreSQL日志配置全解析：从基础设置到进阶策略
今天有朋友问了一个问题，是关于postgresql归档日志暴增，导致数据盘慢，业务异常的问题。在数据库管理中，日志是排查问题、审计操作、优化性能的重要依据。PostgreSQL提供了灵活且强大的日志配置功能，通过合理设置参数，既能满足审计需求，又能平衡系统性能。本文将详细解析PostgreSQL日志配置的核心参数、轮转策略、审计级别及进阶技巧，帮助数据库管理员构建高效的日志管理体系。一、日志配置基
CTF-Web学习笔记：SQL注入篇编程到天明 CTF sql 网络安全
目录引言一、SQL注入的基础概念1.什么是SQL注入？2.SQL注入的成因二、CTF中常见的SQL注入类型1.按参数类型分类2.按注入方式分类3.其他进阶类型三、CTF实战技巧：从找注入点到拿Flag1.如何判断是否存在注入？2.快速确定数据库类型3.常用工具辅助4.绕过WAF（Web应用防火墙）四、CTF题目示例：一道报错注入实战题目背景解题步骤五、总结与提升引言在CTF（CaptureTheF
【速通RAG实战：进阶】16、AI生成思维导图全技术解析无心水速通 RAG 实战！解锁 AI 2.0 高薪密码人工智能 AI思维导图知识图谱 markmap-js Qwen-long模型 CSDN技术干货
一、AI生成思维导图的底层技术逻辑（一）知识结构化的核心流程AI生成思维导图的本质是非结构化文本到结构化知识图谱的转化，其技术流程可拆解为五大核心环节：1.语义解析与实体抽取多模态输入处理：支持文本（Markdown/Word/PDF）、语音（会议录音）、手写笔记（图片OCR）等多形式输入，通过TesseractOCR识别图片文字，Whisper处理语音流。实体识别技术栈：#中英文混合实体识别示例
一行 Python 代码让女友尖叫！程序员浪漫指南
本文专为程序员打造，旨在通过一行Python代码传递独特浪漫。将从代码浪漫逻辑、多场景应用、硬件结合玩法、避坑技巧及进阶方案五个方面，详细阐述如何让简单代码发挥巨大作用，让女友感受到程序员式的用心与惊喜，最后总结核心要点，助你用技术表达爱意。一、代码浪漫的底层逻辑一行Python代码的浪漫，在于将抽象技术转化为具象情感。比如print('\n'.join([''.join([('Love'[(x-
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Hadoop入门进阶课程4--HDFS原理及操作

你可能感兴趣的:(hadoop,大数据,进阶)