zhifeng687

Hhadoop-2.7.0中HDFS写文件源码分析

转载自：http://blog.csdn.net/lipeng_bigdata/article/details/53738376

一、综述

HDFS写文件是整个Hadoop中最为复杂的流程之一，它涉及到HDFS中NameNode、DataNode、DFSClient等众多角色的分工与合作。

首先上一段代码，客户端是如何写文件的：

[java] view plain copy

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path file = new Path("demo.txt");
FSDataOutputStream outStream = fs.create(file);
out.write("Welcome to HDFS Java API !!!".getBytes("UTF-8"));
outStream.close();

只有简单的6行代码，客户端封装的如此简洁，各组件间的RPC调用、异常处理、容错等均对客户端透明。

总体来说，最简单的HDFS写文件大体流程如下：

1、客户端获取文件系统实例FileSyStem，并通过其create()方法获取文件系统输出流outputStream；

1.1、首先会联系名字节点NameNode，通过ClientProtocol.create()RPC调用，在名字节点上创建文件元数据，并获取文件状态FileStatus；

1.2、通过文件状态FileStatus构造文件系统输出流outputStream；

2、通过文件系统输出流outputStream写入数据；

2.1、首次写入会首先向名字节点申请数据块，名字节点能够掌握集群DataNode整体状况，分配数据块后，连同DataNode列表信息返回给客户端；

2.2、客户端采用流式管道的方式写入数据节点列表中的第一个DataNode，并由列表中的前一个DataNode将数据转发给后面一个DataNode；

2.3、确认数据包由DataNode经过管道依次返回给上游DataNode和客户端；

2.4、写满一个数据块后，向名字节点提交一个数据；

2.5、再次重复2.1-2.4过程；

3、向名字节点提交文件（complete file），即告知名字节点文件已写完，然后关闭文件系统输出流outputStream等释放资源。

可以看出，在不考虑异常等的情况下，上述过程还是比较复杂的。本文，我将着重阐述下HDFS写数据时，客户端是如何实现的，关于NameNode、DataNode等的配合等，后续文章将陆续推出，敬请关注！

二、实现分析

我们将带着以下问题来分析客户端写入数据过程：

1、如何获取数据输出流？

2、如何通过数据输出流写入数据？

3、数据输出流关闭时都做了什么？

4、如果发生异常怎么办？即如何容错？

（一）如何获取数据输出流？

HDFS客户端获取数据流是一个复杂的过程，流程图如下：

以DistributedFileSystem为例，create()是其入口方法，DistributedFileSystem内部封装了一个DFS的客户端，如下：

[java] view plain copy

DFSClient dfs;

在DistributedFileSystem的初始化方法initialize()中，会构造这个文件系统客户端，如下：

[java] view plain copy

this.dfs = new DFSClient(uri, conf, statistics);

而create()方法就是通过这个文件系统客户端dfs获取数据输出流的，如下：

[java] view plain copy

@Override
public FSDataOutputStream create(final Path f, final FsPermission permission,
final EnumSet cflags, final int bufferSize,
final short replication, final long blockSize, final Progressable progress,
final ChecksumOpt checksumOpt) throws IOException {
statistics.incrementWriteOps(1);
Path absF = fixRelativePart(f);
return new FileSystemLinkResolver() {
/*
* 创建文件系统数据输出流
*/
@Override
public FSDataOutputStream doCall(final Path p)
throws IOException, UnresolvedLinkException {
// 调用create()方法创建文件，并获取文件系统输出流
final DFSOutputStream dfsos = dfs.create(getPathName(p), permission,
cflags, replication, blockSize, progress, bufferSize,
checksumOpt);
return dfs.createWrappedOutputStream(dfsos, statistics);
}
@Override
public FSDataOutputStream next(final FileSystem fs, final Path p)
throws IOException {
return fs.create(p, permission, cflags, bufferSize,
replication, blockSize, progress, checksumOpt);
}
}.resolve(this, absF);
}

FileSystemLinkResolver是一个文件系统链接解析器（抽象类），我们待会再分析它，这里只要知道，该抽象类实例化后会通过resolve()方法--doCall()方法得到数据输出流即可。接着往下DFSClient的create()方法，省略部分代码，如下：

[java] view plain copy

// 为create构建一个数据输出流
final DFSOutputStream result = DFSOutputStream.newStreamForCreate(this,
src, masked, flag, createParent, replication, blockSize, progress,
buffersize, dfsClientConf.createChecksum(checksumOpt),
getFavoredNodesStr(favoredNodes));
// 开启文件租约
beginFileLease(result.getFileId(), result);
return result;

实际上，它又通过DFSOutputStream的newStreamForCreate()方法来获取数据输出流，并开启文件租约。租约的内容我们后续再讲，继续看下如何获取文件输出流的，如下：

[java] view plain copy

/**
* 为创建文件构造一个新的输出流
*/
static DFSOutputStream newStreamForCreate(DFSClient dfsClient, String src,
FsPermission masked, EnumSet flag, boolean createParent,
short replication, long blockSize, Progressable progress, int buffersize,
DataChecksum checksum, String[] favoredNodes) throws IOException {
TraceScope scope =
dfsClient.getPathTraceScope("newStreamForCreate", src);
try {
HdfsFileStatus stat = null;
// Retry the create if we get a RetryStartFileException up to a maximum
// number of times
boolean shouldRetry = true;
int retryCount = CREATE_RETRY_COUNT;
while (shouldRetry) {
shouldRetry = false;
try {
// 首先，通过DFSClient中nameNode的Create()方法，在HDFS文件系统名字节点中创建一个文件，并返回文件状态
stat = dfsClient.namenode.create(src, masked, dfsClient.clientName,
new EnumSetWritable(flag), createParent, replication,
blockSize, SUPPORTED_CRYPTO_VERSIONS);
break;
} catch (RemoteException re) {
IOException e = re.unwrapRemoteException(
AccessControlException.class,
DSQuotaExceededException.class,
FileAlreadyExistsException.class,
FileNotFoundException.class,
ParentNotDirectoryException.class,
NSQuotaExceededException.class,
RetryStartFileException.class,
SafeModeException.class,
UnresolvedPathException.class,
SnapshotAccessControlException.class,
UnknownCryptoProtocolVersionException.class);
if (e instanceof RetryStartFileException) {
if (retryCount > 0) {
shouldRetry = true;
retryCount--;
} else {
throw new IOException("Too many retries because of encryption" +
" zone operations", e);
}
} else {
throw e;
}
}
}
Preconditions.checkNotNull(stat, "HdfsFileStatus should not be null!");
// 构造一个数据输出流
final DFSOutputStream out = new DFSOutputStream(dfsClient, src, stat,
flag, progress, checksum, favoredNodes);
// 启动数据输出流
out.start();
return out;
} finally {
scope.close();
}
}

大体可以分为三步：

1、首先，通过DFSClient中nameNode的Create()方法，在HDFS文件系统名字节点中创建一个文件，并返回文件状态HdfsFileStatus；

2、构造一个数据输出流；

3、启动数据输出流。

上述连接NameNode节点创建文件的过程中，如果发生瞬时错误，会充分利用重试机制，增加系统容错性。DFSClient中nameNode的Create()方法，实际上是调用的是客户端与名字节点间的RPC--ClientProtocol的create()方法，该方法的作用即是在NameNode上创建一个空文件，并返回文件状态。文件状态主要包括以下信息：

[java] view plain copy

// 文件路径
private final byte[] path; // local name of the inode that's encoded in java UTF8
// 符号连接
private final byte[] symlink; // symlink target encoded in java UTF8 or null
private final long length;// 文件长度
private final boolean isdir;// 是否为目录
private final short block_replication;// 数据块副本数
private final long blocksize;// 数据块大小
private final long modification_time;// 修改时间
private final long access_time;// 访问时间
private final FsPermission permission;// 权限
private final String owner;// 文件所有者
private final String group;// 文件所属组
private final long fileId;// 文件ID

继续看如何构造一个数据输出流，实际上它是通过构造DFSOutputStream实例获取的，而DFSOutputStream的构造方法如下：

[java] view plain copy

/** Construct a new output stream for creating a file. */
private DFSOutputStream(DFSClient dfsClient, String src, HdfsFileStatus stat,
EnumSet flag, Progressable progress,
DataChecksum checksum, String[] favoredNodes) throws IOException {
this(dfsClient, src, progress, stat, checksum);
this.shouldSyncBlock = flag.contains(CreateFlag.SYNC_BLOCK);
// 计算数据包块大小
computePacketChunkSize(dfsClient.getConf().writePacketSize, bytesPerChecksum);
// 构造数据流对象
streamer = new DataStreamer(stat, null);
if (favoredNodes != null && favoredNodes.length != 0) {
streamer.setFavoredNodes(favoredNodes);
}
}

首先计算数据包块大小，然后构造数据流对象，后续就依靠这个数据流对象来通过管道发送流式数据。接下来便是启动数据输出流，如下：

[java] view plain copy

private synchronized void start() {
streamer.start();
}

很简单，实际上也就是启动数据流对象，通过这个数据流对象实现数据的发送。

中间为什么会有计算数据包块大小这一步呢？原来，数据的发送是通过一个个数据包发送出去的，而不是通过数据块发送的。设想下，如果按照一个数据块（默认128M）大小发送数据，合理吗？至于数据包大小是如何确定的，我们后续再讲。

（二）如何通过数据输出流写入数据？

下面，该看看如何通过数据输出流写入数据了。要解决这个问题，首先分析下DFSOutputStream和DataStreamer是什么。

1、DFSOutputStream

DFSOutputStream是分布式文件系统输出流，它内部封装了两个队列：发送数据包队列和确认数据包队列，如下：

[java] view plain copy

// 发送数据包队列
private final LinkedList dataQueue = new LinkedList();
// 确认数据包队列
private final LinkedList ackQueue = new LinkedList();

客户端写入的数据，会addLast入发送数据包队列dataQueue，然后交给DataStreamer处理。

2、DataStreamer

DataStreamer是一个后台工作线程，它负责在数据流管道中往DataNode发送数据包。它从NameNode申请获取一个新的数据块ID和数据块位置，然后开始往DataNode的管道写入流式数据包。每个数据包都有一个序列号sequence number。当一个数据块所有的数据包被发送出去，并且每个数据包的确认信息acks被接收到的话，DataStreamer关闭当前数据块，然后再向NameNode申请下一个数据块。

所以，才会有上述发送数据包和确认数据包这两个队列。

DataStreamer内部有很多变量，大体如下：

[java] view plain copy

// streamer关闭标志位
private volatile boolean streamerClosed = false;
// 扩展块，它的长度是已经确认ack的bytes大小
private ExtendedBlock block; // its length is number of bytes acked
private Token accessToken;
// 数据输出流
private DataOutputStream blockStream;
// 数据输入流：即回复流
private DataInputStream blockReplyStream;
// 响应处理器
private ResponseProcessor response = null;
// 当前块的数据块列表
private volatile DatanodeInfo[] nodes = null; // list of targets for current block
// 存储类型
private volatile StorageType[] storageTypes = null;
// 存储ID
private volatile String[] storageIDs = null;
// 需要排除的节点
private final LoadingCache excludedNodes =
CacheBuilder.newBuilder()
.expireAfterWrite(
dfsClient.getConf().excludedNodesCacheExpiry,
TimeUnit.MILLISECONDS)
.removalListener(new RemovalListener() {
@Override
public void onRemoval(
RemovalNotification notification) {
DFSClient.LOG.info("Removing node " +
notification.getKey() + " from the excluded nodes list");
}
})
.build(new CacheLoader() {
@Override
public DatanodeInfo load(DatanodeInfo key) throws Exception {
return key;
}
});
// 优先节点
private String[] favoredNodes;
// 是否存在错误
volatile boolean hasError = false;
volatile int errorIndex = -1;
// Restarting node index
// 从哪个节点重试的索引
AtomicInteger restartingNodeIndex = new AtomicInteger(-1);
private long restartDeadline = 0; // Deadline of DN restart
// 当前数据块构造阶段
private BlockConstructionStage stage; // block construction stage
// 已发送数据大小
private long bytesSent = 0; // number of bytes that've been sent
private final boolean isLazyPersistFile;
/** Nodes have been used in the pipeline before and have failed. */
private final List failed = new ArrayList();
/** The last ack sequence number before pipeline failure. */
// 管道pipeline失败前的最后一个确认包序列号
private long lastAckedSeqnoBeforeFailure = -1;
// 管道恢复次数
private int pipelineRecoveryCount = 0;
/** Has the current block been hflushed? */
// 当前数据块是否已被Hflushed
private boolean isHflushed = false;
/** Append on an existing block? */
// 是否需要在现有块上append
private final boolean isAppend;

有很多比较简单，不再赘述。这里只讲解几个比较重要的：

1、BlockConstructionStage stage

当前数据块构造阶段。针对create()这种写入来说，开始时默认是BlockConstructionStage.PIPELINE_SETUP_CREATE，即管道初始化时需要向NameNode申请数据块及所在数据节点的状态，这个很容易理解。有了数据块和其所在数据节点所在列表，才能形成管道列表不是？在数据流传输过程中，即一个数据块写入的过程中，虽然有多次数据包写入，但状态始终为DATA_STREAMING，即正在流式写入的阶段。而当发生异常时，则是PIPELINE_SETUP_STREAMING_RECOVERY状态，即需要从流式数据中进行恢复，如果一个数据块写满，则会进入下一个周期，PIPELINE_SETUP_CREATE->DATA_STREAMING，最后数据全部写完后，状态会变成PIPELINE_CLOSE，并且如果发生异常的话，会有一个特殊状态对应，即PIPELINE_CLOSE_RECOVERY。而append开始时则是对应的状态PIPELINE_SETUP_APPEND及异常状态PIPELINE_SETUP_APPEND_RECOVERY，其它则一致。

2、volatile boolean hasError = false

这个状态位用来标记数据写入过程中，是否存在错误，方便进行容错。

3、ResponseProcessor response

响应处理器。这个也是后台工作线程，它会处理来自DataNode回复流中的确认包，确认数据是否发送成功，如果成功，将确认包从确认数据包队列中移除，否则进行容错处理。

create()模式下的DataStreamer构造比较简单，如下：

[java] view plain copy

private DataStreamer(HdfsFileStatus stat, ExtendedBlock block) {
isAppend = false;
isLazyPersistFile = isLazyPersist(stat);
this.block = block;
stage = BlockConstructionStage.PIPELINE_SETUP_CREATE;
}

isAppend设置为false，即不是append写入，BlockConstructionStage默认为PIPELINE_SETUP_CREATE，即需要向NameNode写入数据块。

我们首先看下DataStreamer是如何发送数据的。上面讲到过，DFSOutputStream中包括两个队列：发送数据包队列和确认数据包队列。这类似于两个生产者消--费者模型。针对发送数据包队列，外部写入者为生产者，DataStreamer为消费者。外部持续写入数据至发送数据包队列，DataStreamer则从中消费数据，判断是否需要申请数据块，然后写入数据节点流式管道。而确认数据包队列，DataStreamer为生产者，ResponseProcessor为消费者。首先，确认数据包队列数据的产生，是DataStreamer发送数据给DataNode后，从发送数据包队列挪过来的，而当ResponseProcessor线程确认接收到数据节点的ack确认包后，再从数据确认队列中删除。

关于ResponseProcessor线程，稍后再讲。

数据写入过程之DataStreamer

首先看DataStreamer的run()方法，它会在数据流没有关闭，且dfs客户端正在运行的情况下，一直循环，循环内处理的大体流程如下：

1、如果遇到一个错误（hasErro），且响应器尚未关闭，关闭响应器，使之join等待；

2、如果有DataNode相关IO错误，先预先处理，初始化一些管道和流的信息，并决定外部是否等待，等待意即可以进行容错处理，不等待则数目错误比较严重，无法进行容错处理：这里还判断了errorIndex标志位和restartingNodeIndex的大小，意思是是否是由某个具体数据节点引起的错误，如果是的话，这种错误理论上是可以处理的；

3、没有数据时，等待一个数据包发送：等待的条件是：当前流没有关闭(!streamerClosed)、没有错误（hasError）、dfs客户端正在运行（dfsClient.clientRunning ）、dataQueue队列大小为0，且当前阶段不是DATA_STREAMING，或者在需要sleep（doSleep）或者上次发包距离本次时间未超过阈值的情况下为DATA_STREAMING

意思是各种标记为正常，数据流处于正常发送的过程或者可控的非正常发送过程中，可控表现在状态位doSleep，即上传错误检查中认为理论上可以进行修复，但是需要sleep已完成recovery的初始化，或者距离上次发送未超过时间的阈值等。

4、如果数据流关闭、存在错误、客户端正常运行标志位异常时，执行continue：这个应该是对容错等的处理，让程序及时响应错误；

5、获取将要发送的数据包：

如果数据发送队列为空，构造一个心跳包；否则，取出队列中第一个元素，即待发送数据包。

6、如果当前阶段是PIPELINE_SETUP_CREATE，申请数据块，设置pipeline，初始化数据流：append的setup阶段则是通过setupPipelineForAppendOrRecovery()方法完成的，并同样会初始化数据流；

7、获取数据块中的上次数据位置lastByteOffsetInBlock，如果超过数据块大小，报错；

8、如果是数据块的最后一个包：等待所有的数据包被确认，即等待datanodes的确认包acks，如果数据流关闭，或者数据节点IO存在错误，或者客户端不再正常运行，continue，设置阶段为pipeline关闭

9、发送数据包：将数据包从dataQueue队列挪至ackQueue队列，通知dataQueue的所有等待者，将数据写入远端的DataNode节点，并flush，如果发生异常，尝试标记主要的数据节点错误，方便容错处理；

10、更新已发送数据大小：可以看出，数据包中存储了其在数据块中的位置LastByteOffsetBlock，也就标记了已经发送数据的总大小；

11、数据块写满了吗？如果是最后一个数据块，等待确认包，调用endBlock()方法结束一个数据块；

如果上述流程发生错误，hasError标志位设置为true，并且如果不是一个DataNode引起的原因，流关闭标志设置为true。

最后，没有数据需要发送，或者发生致命错误的情况下，调用closeInternal()方法关闭内部资源。

客户端实现PFSPacket

一、简介

HDFS在数据传输过程中，针对数据块Block，不是整个block进行传输的，而是将block切分成一个个的数据包进行传输。而DFSPacket就是HDFS数据传输过程中对数据包的抽象。

二、实现

HDFS客户端在往DataNodes节点写数据时，会以数据包packet的形式写入，且每个数据包包含一个包头，n个连续的校验和数据块checksum chunks和n个连续的实际数据块 actual data chunks，每个校验和数据块对应一个实际数据块，被用来做数据校验，防止数据传输过程中因网络原因等发生的数据丢包。

DFSPacket内数据的逻辑组织形式如下：

DFSPacket的物理实现如下：

FSPacket在内部持有一个数据缓冲区buf，类型为byte[]

buf用来按顺序存储三类数据，header、checksum chunks、data chunks，分别对应上面的header区域、cccc…cccc区域和dddd…dddd区域

header、checksum chunks和data chunks都是提前分配好的，灰色代表已经写入数据区域，白色代表可以写入数据区域

Header是数据包的头部，它是在后续数据写完后才添加到数据包的头部。因为Header中包含了数据长度等信息，需要在数据写完后进行计算，故头部信息最后生成。Header内部封装了一个Protobuf对象，持有数据在Block中的位置offsetInBlock、数据包序列号seqno、是否为Block的最后一个数据包lastPacketInBlock、数据长度dataLen等信息，Header在写入DFSPacket中时，会在序列化Protobuf对象的前面追加一个数据长度大小和protobuf序列化大小，方便DataNode等进行解析。

DFSPacket内部有四个指针，分别为

1、checksumStart：标记数据校验和区域起始位置

2、checksumPos：标记数据校验和区域当前写入位置

3、dataStart：标记真实数据区域起始位置

4、dataPos：标记真实数据区域当前写入位置

数据包是按照一组组数据块写入的，先写校验和数据块，再写真实数据块，然后再写下一组校验和数据块和真实数据块，最后再写上header头部信息，至此整个数据包写完。

每个DFSPacket都对应一个序列号seqno，还存储了数据在数据块中的位置offsetInBlock、数据包中的数据块（chunks）数量numChunks、数据包中的最大数据块数maxChunks、是否为block中最后一个数据包lastPacketInBlock等信息。

三、源码分析

（一）初始化

DFSPacket的初始化分为以下几步：

1、首先计算缓冲区数据大小

1.1、首先，计算writePacketSize，即写包大小

这个是系统配置参数决定的。该大小默认是认为包含头部信息的，意即客户端自己指定的数据包大小，但是实际大小还需要后续计算得到。writePacketSize取自参数dfs.client-write-packet-size，表示客户端写入数据时数据包大小，默认为64*1024，即64KB

1.2、其次，计算bytesPerChecksum，即每多少数据计算校验和

这个是通过DataChecksum实例checksum的getBytesPerChecksum()方法得到的，如下：

[java] view plain copy

public int getBytesPerChecksum() {
return bytesPerChecksum;
}

而DataChecksum构造时通过校验和选项ChecksumOpt决定每个数据校验和块大小bytesPerChecksum，如下：

[java] view plain copy

DataChecksum dataChecksum = DataChecksum.newDataChecksum(
myOpt.getChecksumType(),
myOpt.getBytesPerChecksum());

ChecksumOpt中的ChecksumType取自参数dfs.checksum.type，默认为CRC32C，每个需要校验和的数据块大小bytesPerChecksum取自参数dfs.bytes-per-checksum，默认为512B。

1.3、计算数据包body大小

bodySize = writePacketSize- PacketHeader.PKT_MAX_HEADER_LEN

最大头部PacketHeader.PKT_MAX_HEADER_LEN大小是一个合理的预估值，它是通过模拟构造一个protobuf对象，然后序列化成byte[]数组后，再加上一个固定的大小（Ints.BYTES + Shorts.BYTES）；

Int所占区域用来存放数据包实际数据（含校验和，即除头部区域外的）大小，Short所占区域用来存放header protobuf对象序列化的大小，头部所占区域剩余的地方就是存放头部信息byte[]；

1.4、计算chunkSize大小

chunkSize = bytesPerChecksum + getChecksumSize()，getChecksumSize()是获取校验和的大小，chunkSize意思是包含数据校验和块、真实数据块的大小

1.5、计算每个包能包含的块数

chunkSize=Math.max(bodySize/chunkSize, 1)，最小为1；

1.6、计算缓冲区内数据大小：

packetSize = chunkSize*chunksPerPacket

chunkSize表示块大小，chunksPerPacket表示每个数据包由多少数据块

1.7、实际申请的缓冲区大小还要加上头部Header的最大大小

bufferSize = PacketHeader.PKT_MAX_HEADER_LEN + packetSize

2、申请缓存区数组

3、构造DFSPacket实例，确定各指针位置、其它指标等

2和3代码如下：

[java] view plain copy

/** Use {@link ByteArrayManager} to create buffer for non-heartbeat packets.*/
/**
* 创建一个数据包
*/
private DFSPacket createPacket(int packetSize, int chunksPerPkt, long offsetInBlock,
long seqno, boolean lastPacketInBlock) throws InterruptedIOException {
final byte[] buf;
final int bufferSize = PacketHeader.PKT_MAX_HEADER_LEN + packetSize;
try {
buf = byteArrayManager.newByteArray(bufferSize);
} catch (InterruptedException ie) {
final InterruptedIOException iioe = new InterruptedIOException(
"seqno=" + seqno);
iioe.initCause(ie);
throw iioe;
}
return new DFSPacket(buf, chunksPerPkt, offsetInBlock, seqno,
getChecksumSize(), lastPacketInBlock);
}

（二）写数据至缓冲区

写数据的过程：
1、先写入一个校验和块；

2、再写入一个真实数据块；

3、块数增1；

4、重复1-3，写入后续数据块组；

写数据是在DFSOutputStream中触发的，代码如下：

[java] view plain copy

// 写入校验和
currentPacket.writeChecksum(checksum, ckoff, cklen);
// 写入数据
currentPacket.writeData(b, offset, len);
// 增加块数目
currentPacket.incNumChunks();
// 迭代累加bytesCurBlock
bytesCurBlock += len;

DataPacket的实现也比较简单，代码如下（有注释）：

[java] view plain copy

/**
* Write data to this packet.
* 往包内写入数据
*
* @param inarray input array of data
* @param off the offset of data to write
* @param len the length of data to write
* @throws ClosedChannelException
*/
synchronized void writeData(byte[] inarray, int off, int len)
throws ClosedChannelException {
// 检测缓冲区
checkBuffer();
// 检测数据当前位置后如果写入len个字节，是否会超过缓冲区大小
if (dataPos + len > buf.length) {
throw new BufferOverflowException();
}
// 数据拷贝：从数据当前位置处起开始存放len个字节
System.arraycopy(inarray, off, buf, dataPos, len);
// 数据当前位置累加len，指针向后移动
dataPos += len;
}
/**
* Write checksums to this packet
* 往包内写入校验和
*
* @param inarray input array of checksums
* @param off the offset of checksums to write
* @param len the length of checksums to write
* @throws ClosedChannelException
*/
synchronized void writeChecksum(byte[] inarray, int off, int len)
throws ClosedChannelException {
// 检测缓冲区
checkBuffer();
// 校验数据校验和长度
if (len == 0) {
return;
}
// 根据当前校验和位置和即将写入的数据大小，判断是否超过数据起始位置处，即是否越界
if (checksumPos + len > dataStart) {
throw new BufferOverflowException();
}
// 数据拷贝：从校验和当前位置处起开始存放len个字节
System.arraycopy(inarray, off, buf, checksumPos, len);
// 数据校验和当前位置累加len
checksumPos += len;
}
/**
* increase the number of chunks by one
* 增加数据块（chunk）数目
*/
synchronized void incNumChunks(){
numChunks++;
}

（三）缓冲区数据flush到输出流

发送数据过程：

1、计算数据包的数据长度；

2、生成头部header信息：一个protobuf对象；

3、整理缓冲区，去除校验和块区域和真实数据块区域间的空隙；

4、添加头部信息到缓冲区：从校验和块区域起始往前计算头部信息的起始位置；

5、将缓冲区数据写入到输出流。

逻辑比较简单，代码如下：

[java] view plain copy

/**
* Write the full packet, including the header, to the given output stream.
* 将整个数据包写入到指定流，包含头部header
*
* @param stm
* @throws IOException
*/
synchronized void writeTo(DataOutputStream stm) throws IOException {
// 检测缓冲区
checkBuffer();
// 计算数据长度
final int dataLen = dataPos - dataStart;
// 计算校验和长度
final int checksumLen = checksumPos - checksumStart;
// 计算整个包的数据长度（数据长度+校验和长度+固定长度4）
final int pktLen = HdfsConstants.BYTES_IN_INTEGER + dataLen + checksumLen;
// 构造数据包包头信息（protobuf对象）
PacketHeader header = new PacketHeader(
pktLen, offsetInBlock, seqno, lastPacketInBlock, dataLen, syncBlock);
if (checksumPos != dataStart) {// 如果校验和数据当前位置不等于数据起始处，挪动校验和数据以填补空白
// 这个可能在最后一个数据包或者一个hflush/hsyn调用时发生
// Move the checksum to cover the gap. This can happen for the last
// packet or during an hflush/hsync call.
System.arraycopy(buf, checksumStart, buf,
dataStart - checksumLen , checksumLen);
// 重置checksumPos、checksumStart
checksumPos = dataStart;
checksumStart = checksumPos - checksumLen;
}
// 计算header的起始位置：数据块校验和起始处减去序列化后的头部大小
final int headerStart = checksumStart - header.getSerializedSize();
// 做一些必要的确保
assert checksumStart + 1 >= header.getSerializedSize();
assert headerStart >= 0;
assert headerStart + header.getSerializedSize() == checksumStart;
// Copy the header data into the buffer immediately preceding the checksum
// data.
// 将header数据写入缓冲区。header是用protobuf序列化的
System.arraycopy(header.getBytes(), 0, buf, headerStart,
header.getSerializedSize());
// corrupt the data for testing.
// 测试用
if (DFSClientFaultInjector.get().corruptPacket()) {
buf[headerStart+header.getSerializedSize() + checksumLen + dataLen-1] ^= 0xff;
}
// Write the now contiguous full packet to the output stream.
// 写入当前整个连续的packet至输出流
// 从header起始处，写入长度为头部大小、校验和长度、数据长度的总和
stm.write(buf, headerStart, header.getSerializedSize() + checksumLen + dataLen);
// undo corruption.
// 测试用
if (DFSClientFaultInjector.get().uncorruptPacket()) {
buf[headerStart+header.getSerializedSize() + checksumLen + dataLen-1] ^= 0xff;
}
}

（四）心跳包

如果长时间没有数据传输，在输出流未关闭的情况下，客户端会发送心跳包给数据节点，心跳包是DataPacket的一种特殊实现，它通过数据包序列号为-1来进行特殊标识，如下：

[java] view plain copy

public static final long HEART_BEAT_SEQNO = -1L;

[java] view plain copy

/**
* Check if this packet is a heart beat packet
* 判断该包释放为心跳包
*
* @return true if the sequence number is HEART_BEAT_SEQNO
*/
boolean isHeartbeatPacket() {
/ 心跳包的序列号均为-1
return seqno == HEART_BEAT_SEQNO;
}

而心跳包的构造如下：

[java] view plain copy

/**
* For heartbeat packets, create buffer directly by new byte[]
* since heartbeats should not be blocked.
*/
private DFSPacket createHeartbeatPacket() throws InterruptedIOException {
final byte[] buf = new byte[PacketHeader.PKT_MAX_HEADER_LEN];
return new DFSPacket(buf, 0, 0, DFSPacket.HEART_BEAT_SEQNO,
getChecksumSize(), false);
}

你可能感兴趣的:(HDFS)

ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
HDFS常用命令 BenChuat 大数据学习 hdfs hadoop 大数据
常用命令说明：-put和-get：上传和下载文件，是HDFS和本地文件系统交互的关键命令。-rm和-mkdir：删除和创建文件/目录，-rm支持递归删除。-ls和-cat：文件查看操作中最常用的命令，分别用于列出文件和查看内容。权限管理：通过-chmod、-chown和-chgrp命令对HDFS文件的权限、所有者和所属组进行管理。检查文件状态：通过-stat和-checksum命令，可以查看文件的
Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
大数据领域Hadoop集群搭建的详细步骤 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 hadoop 分布式 ai
大数据领域Hadoop集群搭建的详细步骤关键词：Hadoop集群、HDFS、YARN、大数据平台、分布式系统、集群配置、故障排查摘要：Hadoop作为大数据领域的基石框架，其集群搭建是数据工程师和运维人员的核心技能。本文从Hadoop核心架构出发，结合生产环境实践，详细讲解从环境准备、配置文件调优到集群启动验证的全流程，并涵盖常见问题排查与最佳实践。无论你是初学者还是需要优化现有集群的工程师，本文
Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化陆水A 大数据 hive hadoop spark python
重点是后面的参数优化一、小文件的定义在Hadoop的上下文中，小文件的定义是相对于Hadoop分布式文件系统（HDFS）的块（Block）大小而言的。HDFS是Hadoop生态系统中的核心组件之一，它设计用于存储和处理大规模数据集。在HDFS中，数据被分割成多个块，每个块的大小是固定的，这个大小在Hadoop的不同版本和配置中可能有所不同，但常见的默认块大小包括128MB、256MB等。基于这个背
C++与Hive、Spark、libhdfs、ACID交互技巧 KENYCHEN奉孝 C++开发语言 spring C++hive spark
C++与Hive交互的实例以下是C++与Hive交互的实例代码片段，涵盖连接、查询、数据操作等常见场景。假设使用libhdfs或thrift接口实现，部分示例需要结合Hive环境配置。基础连接与查询示例1：通过Thrift连接HiveServer2#include#include#includeusingnamespaceapache::thrift;usingnamespaceapache::h
Spark大数据处理讲课笔记4.8 Spark SQL典型案例酒城译痴无心剑 #Spark基础学习笔记（1）spark 笔记 sql
文章目录零、本讲学习目标一、使用SparkSQL实现词频统计（一）提出任务（二）实现任务1、准备数据文件2、创建Maven项目3、修改源程序目录4、添加依赖和设置源程序目录5、创建日志属性文件6、创建HDFS配置文件7、创建词频统计单例对象8、启动程序，查看结果9、词频统计数据转化流程图二、使用SparkSQL计算总分与平均分（一）提出任务（二）完成任务1、准备数据文件2、新建Maven项目3、修
【大数据学习 | Spark-Core】RDD的概念与Spark任务的执行流程 Vez'nan的幸福生活大数据 spark oracle sql json
1.RDD的设计背景在实际应用中，存在许多迭代式计算，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。显然，如果能将结果保存在内存当中，就可以大量减少IO。RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
Spark RDD 之 Partition 博弈史密斯
SparkRDD怎么理解RDD的粗粒度模式？对比细粒度模式SparkRDD的task数量是由什么决定的？一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度支持保存点(checkpoint)虽然RDD可以通过lineage实现faultrecove
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
hadoop 集群问题处理一切顺势而行 hadoop 大数据分布式
1.1.JournalNode的作用在HDFSHA配置中，为了实现两个NameNode之间的状态同步和故障自动切换，Hadoop使用了一组JournalNode来管理共享的编辑日志。具体来说，JournalNode的主要职责包括：共享编辑日志：JournalNode节点组成了一个分布式系统，用于存储HDFS的编辑日志（EditLogs）。这两个日志文件记录了对HDFS所做的所有更改，如文件创建、删
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
MapReduce学习笔记
1.MapReduce做什么Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。2.MapReduce工作机制实体一：客户端，用来提交MapReduce作业。实体二：JobTracker，用来协调作业的运行。实体三：TaskTracker，用来处理作业划分后的任务。实体四：HDFS，用来在其它实体间共享作业文件。3.编写MapRed
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本