limou3434

Linux的文件系统、软硬链接、动静态库

前要：本次我想给您带来关于 IO 和文件的知识，而文件在本系列中分为内存上的文件和磁盘上的文件。

1.文件概念

1.1.文件读写

在谈及系统接口之前，我们先来从 C 语言的角度来谈及一些前要知识，以辅助我们后续来理解系统 IO。

我们知道，在 C 语言中，有很多用于文件输入输出的接口。

补充：C/C++ 程序会默认打开三个文件流：标准输入、标准输出、标准错误，这也就是为什么在没有手动打开（open）键盘和显示器的情况下，却依旧可以使用 printf()、scanf()、cout 的原因…

但是这一操作很奇怪，中间省略了很多步骤，文件是谁在访问呢？操作系统吗？太宽泛了，让我们再思考一下：

我们先写一个包含打开文件接口的 C 代码
经过编译生成可执行程序、运行程序加载到内存中转化为进程
这就相当于，进程在访问文件
而文件又放在磁盘上（因此在本系列中，最后需要提及磁盘的相关概念）
进程通过一些系统接口，在磁盘上访问文件

补充：而我们之前在代码中使用的接口都是语言级别的接口（对系统接口进行了封装，好用是好用了，但是每一种语言都会做不同的封装，但是如果直接使用文件接口，写出来的系统代码不具备跨平台性）。因此最后，我们需要学习一些系统调用。

在 C 语言中，使用 fopen() 打开文件，然后使用 fread() 读取文件，就是读到了进程内部，进程早就被加载到内存的内部，因此就是把文件读到内存里（input），然后通过 fwrite() 等接口将数据写入到磁盘文件中（output）。

而 input 和 output 统称为文件的 IO 操作。

1.2.文件分类

文件实际上也有狭义和广义之分，上述提及的文件是狭义上的文件。对于系统来说：

狭义文件：存储在磁盘上的资源、数据叫做文件
广义文件：上几乎所有的外设，只要具有 input 和 output 特点的都可被称为文件

还可以根据文件是否被打开（被读取到内存中）这一状态，分为：

内存文件，已经被加载到内存中，随时会被进程读取修改，是动态的（我们先探讨内存文件，到文章后半段再谈及磁盘文件）
磁盘文件，存储在磁盘中，等待被进程加载到内存中成为内存文件，是静态的

而无论是哪一种概念的文件，都具备属性和内容，对文件的操作就是操作属性和操作内容。

2.文件接口

这里简单复习一下一些 C 语言文件接口，并且提及内部的底层系统调用。

2.1.C 语言文件接口

这里我给出文档链接，您可以前去复习一二…

fopen()
fclose()
fread()
fwrite()

2.2.Linux 系统调用

不同语言需要封装在不同平台的系统文件接口，以便于自己的语言可以跨平台使用。但是为了理解一些概念，我们必须对一些接口有所概念。

2.2.1.open()

#include 
#include 
#include 
int open(const char* pathname, int flags);//路径和选项，通常这个函数用来读取比较多
int open(const char* pathname, int flags, mode_t mode);//路径和选项以及模式，通常这个函数用来写入比较多

//pathname 是指要打开文件的文件路径
//flags 对应的选项主要有：
//1.O_APPEND 追加
//2.O_CREAT 文件不存在，则会根据给定文件名创建新文件。如文件已存在，则不起任何作用
//3.O_TRUNC 如果文件存在，并且是常规文件，且打开的目的是写入，那么这个文件会被清空
//4.O_RDONLY 表示只读、O_WRONLY 表示只写、O_RDWR 表示读和写，这三个选项必须使用一个，再配合其他关键字使用
//5.O_CLOEXEC 在打开文件时设置 close-on-exec 标记。以 O_CLOEXEC 标志打开文件时，在调用 exec 系列函数（如 execve、execvp 等）时，该文件将自动关闭。对于在子进程中执行新程序时避免文件描述符泄漏非常有用
//...

//其中 mode 就是文件的权限，和 linux 文件权限的二进制表示是一样的，也会受到 umask 权限掩码的影响，我们也可以调用系统接口 umask() 来设置 umask 掩码，该掩码是进程专有的。如果文件是在 open() 时创建的，则默认权限是“乱码”的权限，最好还是手动设置一下。、

可以看到光是头文件就需要包含三个，而且还有两个 open() 函数需要选择，还需要组合选择众多的 flag，这样就会比 C 语言的 fopen() 难用一些。

那么上面的 flag 宏关键字怎么组合使用呢？想要传递多个选项怎么做呢？

一个 int 有 32 个比特位，那么每一个比特位都可以表示一种状态，只需要使用位操作来组合即可，这种传递状态的方式在编码中很常见，可以使一个参数有多种可能或者选择，比如下面的代码。

#define ONE 0x1
#define TWO 0x2
#define THR 0x3
void show(int flags)
{
    if(flags & ONE) printf("one\n");
    if(flags & TWO) printf("two\n");
    if(flags & THR) printf("thr\n");
}
int main()
{
    show(ONE);
    show(ONE | TWO);
    show(ONE | TWO | THR);
    return 0;
}

因此使用 open() 也是使用类似的方式来组合调用不同的标志位。

那么 mode 参数又该怎么写呢？其实就是修改权限，配合 umask() 调用来使用即可，并且优先使用调用者的 umask()，忽略系统的 umask 值（但是一般建议直接使用系统的，和系统保存一致）。

#include 

#include 
#include 
#include 
int mian()
{
    umask(0);//设置进程专用的 umask 掩码
    int fd = open("limou.txt", O_WRONLY, 0666);
    if(fd < 0)
    {
        perror("open");
        return 1;
    }
    printf("open success, fd: %d\n", fd);//输出 3
    return 0;
}

2.2.2.close()

#include 
int close(int fd);

比较简单，就是关闭一个文件，将 open() 的返回值传入即可关闭文件。

2.2.3.read()

#include 
ssize_t read(int fd, void* buf, size_t count);//将文件内容读取到 buf 中，ssize_t 是实际读取到的字符个数，只要有 fd 就可以读取，无需提前打开文件，后面的函数也是类似

2.2.4.write()

#include 
ssize_t write(int fd, const void* buf, size_t conut);//fd 就是打开文件返回的 fd，buf 就是需要写入的数据，count 就是写入个数，并且无需包含 '\0'，因为这是 C 的字符串结尾，不是系统的字符串结尾，并且该函数在 open() 没有选择追加打开和清空文件的情况下，默认是从头开始覆盖式写入

我们直接来使用这些系统调用试试：

#include 
#include 
#include 
#include 

int mian()
{
    umask(0);//设置进程专用的 umask 掩码
    int fd = open("limou.txt", O_WRONLY, 0666);//以只写目的打开文件
    if(fd < 0)
    {
        perror("open");
        return 1;
    }
    
    const char* s = "hello word!\n";
    write(fd, s, strlen(s));//最后一个参数不用加 1
    printf("open success, fd: %d\n", fd);//输出 3
    return 0;
}

但是上述函数的返回值是什么？这就需要提到文件描述符的概念了。

3.文件描述符

文件描述符的作用和进程 ID 类似，是一个文件的唯一标识符（进程是 ID 为唯一标识符）

int main()
{
    int fd1 = open("limou1.txt", O_WRONLY|O_CREAT|O_APPEND, 0666);
    printf("open success, fd1: %d\n", fd1);
    int fd2 = open("limou1.txt", O_WRONLY|O_CREAT|O_APPEND, 0666);
    printf("open success, fd2: %d\n", fd2);
    int fd3 = open("limou1.txt", O_WRONLY|O_CREAT|O_APPEND, 0666);
    printf("open success, fd3: %d\n", fd3);
    int fd4 = open("limou1.txt", O_WRONLY|O_CREAT|O_APPEND, 0666);
    printf("open success, fd4: %d\n", fd4);

    close(fd1);
    close(fd2);
    close(fd3);
    close(fd4);
    return 0;
}
//输出了 3、4、5、6

这个 fd 返回值究竟是什么？就是所谓文件描述符，其中 0、1、2 这三个文件去哪里了呢？实际上分配给三个标准输入输出文件了，也就是被 stdin(0)、stdout(1)、stderr(2) 所占用（依照顺序占用）！

int main()
{
    fprintf(stdout, "hello\n");//使用 C 语言的文件指针 FILE 写入 stdout

    const char* s = "I am limou\n";
    write(1, s, strlen(s));//使用系统调用和文件描述符写入 1 号文件
    return 0;
}

文件描述符的分配规则非常简单：先分配最小的没有被占用的文件描述符给新打开的文件。如果我们把默认的三个标准输入输出文件使用 fclose() 关掉，那么新打开的文件就可以占用 0、1、2 中某个标识符。

补充：在 C 语言下，所有的文件都具有文件指针 FILE。而 FILE 是 C 标准库设计的文件结构体，内部有多种成员。在系统角度只认识 fd，不认识 FILE，因此我们可以猜测：在 FILE 结构体内部一定封装了文件描述符 fd。这一点可以查看 FILE 结构体的成员变量的 _fileno（存储了文件描述符）来证明（也有可能不是这个名字，但是一定有一个文件描述符成员）。

4.文件结构体

一个进程可以打开多个文件，而一个文件要被访问也必须被一起加载到内存中才能被进程访问，那如果多个进程都在打开文件怎么办？内存根本不够用！因此操作系统不可能将如此多的文件全部一次性打开，必须经过描述和管理，因此就需要构建一个文件结构体。

在内核中，为了管理被打开的文件，就必须创建一个 struct file{struct file* next; struct file* prev;};（不仅包含属性和数据还有更多的）结构体来描述文件，并且使用双链表链接起来组织（先描述再组织）。

每打开一个文件，就会实例化该结构体，插入到链表中，来代表一个文件。一条链表就是当前所有进程需要的被打开的文件，但是文件和进程之间怎么关联呢？靠的就是 fd 文件描述符，所有的 fd 值构成一个数组的下标，这个数组的类型就是 struct file* arrary[]，也就是一个指针数组，每一个指针成员都指向一个文件结构体。

这样，系统就可以在进程对象中使用 fd 下标来访问一个指针数组，然后找到指向的文件结构对象，进而使用该对象描述的文件。

而再上述提到的结构体内部具有成员变量，而它又是描述文件的，因此文件有大部分属性来自这个结构体，关于属性的修改就是修改这些成员变量。

4.1.文件结构

真的存在描述文件用的结构体呢？下面是 Linux 内核对应的源代码：

//文件结构
struct file
{
    union
    {
        struct list_head fu_list;
        struct rcu_head fu_rcuhead;
    } f_u;
    struct path f_path;
    //...
    const struct file_operations* f_op;//文件方法操作集
    //...
    fmode_t f_mode;//文件权限
    struct fown_struct f_owner;//文件的拥有者
    //...
    atomic_long_t f_count;//引用计数（统计有多少个进程在打开该文件）
    //...
    u64 f_version;//文件的版本
    //...
};

内部必然包含文件的各种属性和文件内容，每创建一个文件实例化，就是描述了一个文件。除此之外，还需要提供了一个文件缓存区（也就是一段内存空间）由操作系统申请给文件，在本文后面有关于缓冲区的详细描述。

这个结构实例化后的对象和进程结构的实例化一样，都只是在内存中存在，因此准确来说，该进程是描述一个被打开的文件。

所谓打开文件读数据，就是先发生缺页中断，然后将数据加载到内存（缓冲区）中，才允许进程读取文件的数据。
而写数据就是修改文件，改动内容和改动属性都是修改，也需要先将数据加载到内存（缓冲区），再进行修改。

因此文件读写操作都需要加载到内存中，都是来回拷贝。

除此之外，在文件结构体中还有对文件的操作方法集，可以根据每个文件自己的缓冲区进行文件操作（这点在 C 语言中可以使用函数回调来实现）。

4.2.指针数组

标识被我们理解为数组索引，那是否真的存在这么一个“数组”来指向结构体呢？我们也可以查看一下 Linux 内核的源码来证明：

//指针数组
struct files_struct
{
    atomic_t count;
    struct fdtable *fdt;
    struct fdtable fdtab;

    spinlock_t file_lock ___cacheline_aligned_in_smp;
    int next_fd;
    struct embedded_fd_set close_on_exec_init;
    struct embedded_fd_set open_fds_init;
    struct file* fd_array[NR_OPEN_DEFAULT];//重点关注这个数组，如果是 64 位，NR_OPEN_DEFAULT = 64，32 位就是 32。
};

上面的结构体内的 fd_array[] 数组就是指针数组，每一个指针成员指向一个描述文件的结构体。

但是为什么这个数组这么小呢？只能同时打开 64/32 个文件？实际上还有其他的拓展字段（其他成员变量）来帮助这个数组指向更多的文件，在现在的某些操作系统里，一个进程有时候可以打开的文件能达到 10 000 个。

补充：因此经过上面所有知识的铺垫，我们终于可以得到更深入的结论：

C 语言调用 fopen()，则调用了系统接口 open()，系统实例化一份 struct file* 类型的文件对象，描述这个被打开的文件，并且插入到 fd_array[] 中，分配好文件标识符 fd 后，返回给 open()

因此 open() 得到一个文件描述符 fd（数组下标），而文件描述符又被 C 语言的 FILE 结构体封装，最后以 FILE* 的方式返回给 fopen()，也就是我们平时在 C 语言内使用的文件指针

然后我们在使用 C 语言的 fwrite() 的时候，传进来了一个 FILE*，指向的结构体变量内部具有一个 fd 文件描述符，就可以通过这个 fd 传给系统调用 write()

然后操作系统找到进程的 task_struct{};，就找到了进程内部的数组 fd_array[]，根据 fd 就找到了 struct file* 类型的文件对象，也就是一个内存文件被找到了，然后后续就可以进行某一些写入操作了

5.重定向

5.1.重定向模拟

如果 close() 关掉 fd=1 的文件，根据 fd 的分配原则，关闭 fd=1 意味着下次打开文件分配的 fd 为 1，而 C 又默认往 fd=1 的 stdout 打印。

那么打印就会往新打开的文件内输出，而且不只是这一次打印，往后所有的打印输出函数都会输入的这个新打开的文件内部，这也就模拟了输出重定向。

//模拟输出重定向
#include 
#include 
#include 
#include 
#include 

int main()
{
    //1.关闭标准输出
    close(1);

    //2.打开新的文件，自动赋予文件标识符为 1
    int fd = open("limou.txt", O_WRONLY | O_TRUNC | O_CREAT, 0666);//会覆盖文件的内容
    if(fd < 0)
    {
        perror("open");
        return 1;
    }

    //3.打印到输出，而输出标识符对于的文已经被改为了 limou.txt
    fprintf(stdout, "you can see me : %d, success\n", fd);

    //4.刷新输出
    fflush(stdout);
    //加上这个 fflush() 的原因是为了刷新用户级别的输出缓冲区，
    //如果没有使用这个函数，后面执行了 fclose() 将导致没有对应的 fd，
    //C 语言提供的用户级缓冲区，就无法通过 fd 让系统将数据刷新到对应文件
    
    close(fd);
    return 0;
}

但是如果我们在代码中去带 fflush() 就会发现，在文件内没有内容？！这又是为什么呢？这涉及到缓冲区，写入的数据还来不及从缓冲区刷新到文件，结果就关闭了文件标识符，就是有自动刷新缓冲区，也找不到对哪一个文件进行写入了。如果我们之前没有关闭标准输出，则会自动刷新缓冲区数据到标准输出上（我们后面来讲解，这里先简单理解一下）。

类似的，关掉 fd=0 也可以模拟输入重定向。

//模拟输入重定向
#include 
#include 
#include 
#include 
#include 

int main()
{
    //1.关闭标准输入
    close(0);

    //2.打开新的文件，自动赋予文件标识符为 0
    int fd = open("limou.txt", O_RDONLY);//此时文件内是有内容的
    if(fd < 0)
    {
        perror("open");
        return 1;
    }

    //3.自定义一个缓冲区 buffer，用于存储读取到的数据
    char buffer[1024] = { 0 };
    fread(buffer, 1, sizeof(buffer), stdin);

    //4.输出读取结果到标准输出（相当于我们自己定义的缓冲区写入到了输出缓冲区中，最后 C 会帮助我们刷新的）
    printf("%s", buffer);

    //5.关闭被打开的文件
    close(fd);
    return 0;
}

5.2.重定向接口

上面代码还需要我们先关闭标准输入输出，有没有其他的办法呢？有的，接下来就让我们来学习一下重定向的底层调用：

//dup 系列接口声明
int dup(int oldfd);
int dup2(int oldfd, int newfd);//重点了解这一个
int dup3(int oldfd, int newfd, int flags);

我们了解 dup2() 就够了，duq2() 就是把 oldfd 指向的内容拷贝给 newfd，然后将 oldfd 指向的文件关闭（这里的关闭是指引用计数的释放，不一定真的就释放被打开的文件资源了）。也就是说：newfd 的指向发生了改动。

//演示使用接口 dup2()
#include 
#include 
#include 
#include 
int mian(int argc, char* argv[])
{
    if(argc != 2) //如果不是由“命令+参数”构成，就不执行代码
    {
        return 2;
    }
    int fd = open("limou.txt", O_WRONLY | O_TRUNC | O_CREAT);//会覆盖文件的内容
    if(fd < 0) //文件打开异常
    {
        perror("open");
        retrun 1;
    }
    
    close(1);
    
    dup2(fd, 1);//重定向输出
    close(fd);
    
    fprintf(stdout, "%s\n", argv[1]);//打印出携带的参数
    return 0;
}

上面的代码就是重定向的原理，图示如下：

可选的关闭

使用 dup2(fd, 1) 把 fd 指向的内容拷贝给 [1]
因此 [1] 也执行了文件 limou.txt

[0]

stdin

[1]

stdout

[2]

stderr

[fd == 3]

limou.txt

[4]

其他文件...

补充：“Linux 下一切皆文件”，在进程控制和基础 IO 的知识背景下我们可以更加深入了解这句话。

首先，Linux 内核大部分都是使用 C 语言实现的，那么 C 有没有办法实现面向对象呢？是可以的！

例如：对于一个文件结构体，首先 C 的结构体具备类的雏形，可以在内部定义文件的属性（结构体成员变量），那么方法怎么实现呢？使用函数指针（结构体成员变量），只需要函数指针实现恰当，就可以在结构体中包含方法。

因此一个基础的类就实现了。

因此“一切皆文件”就是指：可以使用 C 语言的结构体来描述所有的硬件的“属性”和“操作”，那么调用这些硬件就如同调用一个对象，设置对象属性，根据属性使用对象的操作方法…这就是“一切接文件”的本质！

另外，C 语言虽然是面向过程的语言，但是并不意味着 C 不可以实现面向对象思想，像上述的说明就实现了一个类的封装。在某些巧妙地设计下，实现 OOP 其他重要特性（比如：多态）也是完全可以的，当然，对比纯 OOP 语言来说会有些麻烦（比如 Java）。

实际上，语言从面向过程到面向对象也是经历了这些大量的实践（每次都要设计出这样带有属性和方法的结构体）才被人们设计出来的。

我们之前写过一个 MyShell 项目，还有一个重定向的功能，用的就是这里的重定向调用。

6.标准错误文件

标准输出文件和标准错误文件都是输出到显示器，那么两者有什么区别呢？让我们来先看一段代码。

#include 
#include 
#include 
#include 
#include 
#include 
#include 
using namespace std;
int main()
{
    printf("hello printf 1\n");//-> stdio
    fprintf(stdout, "hello fprintf 1\n");
    perror("hello perror 2");//-> stder

    const char* s1 = "hello write 1\n";
    write(1, s1, strlen(s1));

    const char* s2 = "hello write 2\n";
    write(2, s2, strlen(s2));

    cout << "hello cout 1" << endl;
    cerr << "hello cerr 2" << endl; 
    return 0;
}

这份 C++ 代码的运行结果和重定向结果如下：

$ g++ main.cpp
$ ./a.out
hello printf 1
hello fprintf 1
hello perror 2: Success
hello write 1
hello write 2
hello cout 1
hello cerr 2

$ ./a.out > limou.txt
hello perror 2: Success
hello write 2
hello cerr 2

$ cat limou.txt
hello write 1
hello printf 1
hello fprintf 1
hello cout 1

可以看出 1 和 2 对于的都是显示器文件，但是两个文件是些不同的，我们可以认为一个显示器文件被打开了两次。1 和 2 描述符都指向显示器文件。因此做重定向的时候我们会发现，如果 1 被 dup2() 了，不代表 2 会被 dup2()。

这就是两者的最大区别，这样我们就可以理解，为什么开发者不自己使用类似 printf() 和 if() 打印错误，而使用 preeor() 这样的函数来做一个错误检查的输出了。

如果程序在运行的过程中出现了问题，使用类似 preeor()、cerr() 等函数会更加方便，因为可以使错误信息和正常打印信息区分开。

6.1.分开输出标准输出和标准错误

如果希望直接使用重定向，来使一般的文本输出和错误输出分离开查看的话，可以使用类似 ./a.out 1>text.txt 2>error.txt 的命令，这样就可以实现文本输出和错误输出分离到两个文件内，直接进行查看就可以。

6.2.合并输出标准输出和标准错误

如果想要文本输出和错误输出全部放进一个文件了，则可以使用命令 ./a.out > all.txt 2>&1（整个命令可以这么理解，./a.out > all.txt 将文本输出从标准输出重定向为文件 all.txt，此时该文件的 fd 就是 1，而后面又将 2>&1 就把标准输出重定向为 1，也就是说标准错误现在也指向 all.txt 了，这样两个输出就可以同时输入到一个文件了）。

补充：重定向也可以使用 cat < source.txt > copy.txt 来拷贝文件。

6.3.模拟实现 perror()

而 perror() 实际上我们也可以设计一个。

//模拟实现 perror()
void MyPerror(const char* msg)
{
    fprintf(stderr, "%s: %s\n", msg, strerror(erron));//后面这个函数就是打印错误信息
}

7.缓冲区

我们之前提到过文件缓冲区，实际上文件缓冲区就是一段由操作系统分配的、供文件使用的内存空间。

4.1.缓冲区作用

为什么需要缓冲区呢？原因很简单，为了效率：

写透模式 WT：数据一个一个输入，直接写透输出到磁盘的另外一个文件中，那么这个实现就会频繁访问磁盘（效率低）
写回模式 WB：但是如果先拿内存空间存储起来表示写入完成（这里写完文件进程就回去继续执行代码，在写入的进程看来，自己已经完成对某文件的写入了（实际并没有，只是交给小段的内存空间了），也就是所谓的“写回”）。直到满足某一条件后，再一起将缓冲区数据输入到磁盘中的文件（刷新），这样效率就会很高，访问磁盘不会特别频繁（效率高）

补充：上面说的是“写操作的缓冲区”，同理读数据也类似有“读操作的缓冲区”的概念。

因此有了缓冲区就可以提高用户的响应速度（用户感觉自己的输入输出操作变快了，很有可能缓冲区内的数据还未刷新到磁盘中），以避免磁盘访问速度缓慢引起用户的输入输出请求响应缓慢（甚至影响其他设备的效率）。

补充：在某些情况下，我们也可以把内存当作一个“大型缓冲区”来理解。

总结来说：谁使用缓冲区谁受益（指 IO 效率上的受益）。

4.2.缓冲区刷新

我们知道，缓冲区需要根据一定的条件才可以进行刷新，也就是刷新策略：

立刻刷新（即时缓冲）
写出一行数据后，遇到换行就立刻刷新（行刷新）
占满缓冲区就刷新（全刷新）

但是有一些特殊情况也会刷新缓冲区：用户强制刷新（fflush()）、进程退出时等等。

补充 1：一般显示器采用行刷新（符合阅读习惯），磁盘采用全缓冲（提高效率需求）。

补充 2：一般显示器时行刷新，因此使用 printf() 不断打印，但是不做换行，就只能等到缓冲区被填满才会输出，这个等待缓冲的过程可能比较久。
#include 
#include 
int main()
{
    while(1)
    {
        printf("%s", "abcdefghijklmnopqrstuvwxyz");
        sleep(1);
    }
    return 0;
}
这个代码运行起来后，可能还需要很久才能看到输出（也就是缓存区满的时候）。

4.3.缓冲区提供

但是缓冲区这段内存空间是谁提供的呢？是操作系统么？我们通过一份奇怪的代码来证明一下。

//mian.c
#include 
#include 
#include 

int main()
{
    //C 语言接口
    printf("C:hello printf()\n");
    fprintf(stdout, "C:hello fprintf()\n");
    const char* s = "C:hello fputs()\n";
    fputs(s, stdout);
    
    //OS 系统接口
    const char* str = "Sys:hello write()\n";
    write(1, str, strlen(str));   

    fork();
    return 0;
}
//保存通过 gcc 生成 a.out

如果直接运行 ./a.out，那么输出 4 行字符串确实没毛病。

hello printf()
hello fprintf()
hello fputs()
hello write()

但是如果将内容重定向到同级的另外一份空的文本文件 /.a.out > text.txt，就会发现文件内会多出很多语句，并且顺序也很奇怪，这是为什么呢？

hello write()
hello printf()
hello fprintf()
hello fputs()
hello printf()
hello fprintf()
hello fputs()

其实，我们目前提到的缓冲区都是是由语言来维护的语言级缓冲区（准确的说是 C 标准库）。

注意 1：我们之前提到过缓冲区的一个结论，“谁使用缓冲区谁受益（指 IO 效率上的受益）”，那么我们就可以认为，语言提供的缓冲区，让 printf() 的使用者受益（用户会感觉调用 printf() 变得快了，当然这是相对没有缓冲区而言）。

注意 2：C 语言的缓冲区是 C 语言的缓冲区，系统的缓冲区是系统的， C 语言并不是直接把系统的缓冲区进行封装，这样描述不准确…

在代码中，我们可以选择在进程里使用 C 提供的函数来写入 C 维护的缓冲区，再由该缓冲区自己调用 write() 写入系统。当然，也可以选择直接调用 write() 直接写入到系统。

我们之前是在显示器上刷新缓冲区的（行刷新）因此父进程运行一段代码，遇到 \n 就会刷新一次（这就是一种数据的改动），然后再创建子进程。对于子进程来说，父进程缓冲区内的数据已经被输出了，也就没有缓冲区的数据需要写时拷贝（继承父进程的数据）了，因此只有 4 行的输出，子进程则没有任何的输出。

而当我们将输出重定向的时候，就是向磁盘中的文件写入（这是一种修改）：

在 fork() 之前，前面的函数被执行完了，但是不代表缓冲区的数据已经被刷新了。这是因为现在是将缓冲区的数据刷新到到磁盘（行刷新变成全刷新），因此代码语句中的 \n 变得没有效果了，父进程的打印在输出缓冲区中的数据会一直保存着，不会立刻输出
而缓冲区的数据也是父进程的数据，在 fork() 之后，由于父进程在结束进程的时候需要刷新缓冲区的文件（这就是一种数据的改动）。为了避免子进程被父进程影响，创建子进程的时候，父进程缓冲区内的数据会被子进程发生一次写时拷贝（让子进程继承缓冲区的数据）
最后在父子进程都结束进程后，由于进程结束必须要刷新所有缓冲区的数据，因此就会出现两份相同的输出（但是谁先退出这是不清楚的，因此我们无法确定两次相同的输出谁是父输出，谁是子输出）

我们可以在 fork() 代码的前面再加一条 fflush() 来避免创建子进程的时候发生写时拷贝，进而实现正常打印四条输出。

//mian.c
#include 
#include 
#include 

int main()
{
    //C 语言接口
    printf("C:hello printf()\n");
    fprintf(stdout, "C:hello fprintf()\n");
    const char* s = "C:hello fputs()\n";
    fputs(s, stdout);
    
    //OS 系统接口
    const char* str = "Sys:hello write()\n";
    write(1, str, strlen(str));   
    fflush(stdout);
    fork();
    return 0;
}

$ ./a.out > text
$ cat text
Sys:hello write()
C:hello printf()
C:hello fprintf()
C:hello fputs()

而为什么 fflush() 只输进去了一个参数呢，缓冲区的所在地呢？实际上 stdout 的数据类型是 struct FILE{//...};，该结构体不仅仅保存了文件描述符 fd，还封装了 fd 对应的大量的语言级缓冲区结构。

在一些 stdio.h 实现里 FILE 是由 IO_FILE 封装的。因此在 FILE{//...}; 内部我们可以看到类似 _IO_read_ptr、_IO_read_end 等缓冲区相关的关键字，这些就是维护缓冲区的关键字。因此，我们只需要传递一个参数就足够 fflush() 刷新了。

而对于操作系统来说，每一个 file{//...}; 内理应也有一个内核级缓冲区，我们使用 write() 的时候，也应该是将数据放进了系统级别的缓冲区。但是从上述代码输出来看，为什么就没有发生写时拷贝呢？

醒醒吧，是子进程要使用父进程中有可能会被父进程修改的数据时，才会发生子进程的写时拷贝，而使用 write()，就会将数据交给操作系统的内核缓冲区，而不是在进程里的语言级缓冲区，由操作系统来定义刷新，因此进程之间的写时拷贝和这里无关。

那么其他语言，是怎么维护缓冲区的呢？例如：C++ 语言对 << 进行重载，然后内部实现的时候将数据拷贝到 buffer 里就可以，后面再进行刷新即可（这里可以查看一下 cout 的实现，找找看里面是否存在 fd）。

最终我们可以得到两个结论：

在 C 语言中，读写用的语言级别缓冲区由 C 库来维护，并且就在 FILE{//...}; 内部描述缓冲区的属性，因此使用 C 的文件 IO 接口时需要时刻注意这方面的问题
而语言级缓冲区会提高语言级调用的 IO 效率，系统级缓冲区就会提高系统调用的 IO 效率

4.4.缓冲区模拟

这里我们只模拟缓冲区原理的一部分。

#include 
#include 
#include 
#include 
#include 
#include 
#include 
typedef struct MyFILE//模拟 FILE
{
    int fd;//文件描述符
    char buffer[1024];//缓冲区
    int end;//结尾
}MyFILE;
//可以看到文件的数据都在 MyFILE 里，因此所有的接口都需要使用 MyFILE
MyFILE* MyFopen(const char* pathname, const char* mode)
{
    //1.检查参数都不为空
    assert(pathname);
    assert(mode);
    //2.对不同模式做不同的操作
    MyFILE* fp = NULL;
    if (strcmp(mode, "r") == 0)
    {
    }
    else if (strcmp(mode, "r+") == 0)
    {

    }
    else if (strcmp(mode, "w") == 0)
    {
        int fd = open(pathname, O_WRONLY | O_TRUNC | O_CREAT, 0666);//调用系统接口，写入之前先清空文件，不存在时需要创建
        if (fd >= 0)
        {
            fp = (MyFILE*)malloc(sizeof(MyFILE));
            memset(fp, 0, sizeof(MyFILE));
            fp->fd = fd;
        }
    }
    else if (strcmp(mode, "w+") == 0)
    {

    }
    else if (strcmp(mode, "a") == 0)
    {

    }
    else if (strcmp(mode, "a+") == 0)
    {

    }
    return fp;

}
void MyFputs(const char* message, MyFILE* fp)
{
    assert(message);
    assert(fp);
    strcpy(fp->buffer + fp->end, message);//注意这个函数是会自动添加'\0'的
    fp->end += strlen(message);//防止多次写入缓冲区被覆盖

    if (fp->fd == 0)
    {
        //标准输入
    }
    else if (fp->fd == 1)
    {
        //标准输出
        if (fp->buffer[fp->end - 1] == '\n')
        {
            write(fp->fd, fp->buffer, fp->end);//默认显示器行刷新
            fp->end = 0;
        }
    }
    else if (fp->fd == 2)
    {
        //标准错误
    }
    else
    {

    }

}
void MyFflush(MyFILE* fp)
{
    assert(fp);
    if (fp->end != 0)
    {
        write(fp->fd, fp->buffer, fp->end);//实际上是写入到内核缓冲区里了，一般是内核会帮助我们刷新，但是我们也可以尝试使用 syncfs()可以刷新数据到磁盘上
        syncfs(fp->fd);//刷新系统缓冲区到磁盘
        fp->end = 0;
    }
}
void MyFclose(MyFILE* fp)
{
    assert(fp);
    MyFflush(fp);//关掉文件之前先刷新一下缓冲区到文件里
    close(fp->fd);
    free(fp);
}
int main()
{
    MyFILE* fp = MyFopen("./limou.txt", "w");
    if (fp == NULL)
    {
        printf("open error\n");
        return 0;
    }
    MyFputs("hello!", fp);
    MyFputs("I am limou.", fp);
    MyFputs("This are words.", fp);
    MyFclose(fp); 
}

上面的代码不仅是实现了缓冲区的输入操作，还实现了一种缓冲区刷新策略（行刷新）。

您还可以在代码一开始的时候关闭 fd=1 的文件（也就是标准输出），这样系统就会给您的文件分配 fd=1，再结合 usleep() 来观察行刷新的操作。

并且我们还可以尝试在代码结尾添加 fork() 来重现我们在 4.3.缓冲区提供 中出现重复打印的现象。

而效率提高的地方就在于 IO 执行的次数变少（访问磁盘次数减少），在内存的操作比较多（放入 buffer[] 中）。

5.模拟实现 C 文件接口

了解了 Linux 中文件的系统调用和缓冲区之后，就可以尝试使用系统调用，来模拟实现 C 的文件接口了。

//file.h
#pragma noce
#define BUFFER_SIZE 4096
#define FLUSH_NONE 1
#define FLUSH_LINE (1 << 1)
#define FLUSH_ALL (1 << 1)

typedef struct MyFILE
{
    int _fileno;                    //文件描述符
    int _flag;                      //刷新策略标记
    char _buffer[BUFFER_SIZE];      //缓冲区
    int _end;                       //end - 0 为缓冲区大小
} MyFILE;

MyFILE* Myfopen(const char* path, const char* mode);
int Mywrite(const char* s, int num, MyFILE* stream);
int Myfflush(MyFILE* stream); 
int Myfclose(MyFILE* stream);

//file.c
#include "file.h"
#include 
#include 
#include 
#include 
#include 
#include 
#include 

#define DFL_MOOE 0666

MyFILE* Myfopen(const char* path, const char* mode)
{
    int fd = 0;
    int flag = 0;
    if (strcmp(mode, "r") == 0)
    {
        flag |= O_RDONLY;
    }
    else if (strcmp(mode, "w") == 0)
    {
        flag |= (O_CREAT | O_TRUNC | O_WRONLY);
    }
    else if (strcmp(mode, "a") == 0)
    {
        flag |= (O_CREAT | O_WRONLY | O_APPEND);
    }
    else
    {
        //Do nothing
    }

    if (flag & O_CREAT)//创建文件
    {
        fd = open(path, flag, DFL_MOOE);
    }
    else
    {
        fd = open(path, flag);
    }

    if (fd < 0)
    {
        errno = 2;//设置错误（代表文件打开失败）
        return NULL;
    }

    MyFILE* fp = (MyFILE*)malloc(sizeof(MyFILE));
    if (!fp)
    {
        errno = 3;//设置错误（代表空间申请失败）
        return NULL;
    }

    fp->_flag = FLUSH_LINE;//默认行刷新
    fp->_end = 0;//默认缓冲区没有数据
    fp->_fileno = fd;//设置文件标识符

    return fp;
}

int Mywrite(const char* s, int num, MyFILE* stream)//num 是写入的字符个数
{
    //写入数据
    memcpy(stream->_buffer + stream->_end, s, num);
    stream->_end += num;
    
    //判断刷新
    if ((stream->_flag & FLUSH_LINE) 
    &&  (stream->_end > 0)
    &&  (stream->_buffer[stream->_end - 1] == '\n')
    )
    {
        Myfflush(stream);
    }
    return num;
}

int Myfflush(MyFILE* stream)
{
    if (stream->_end > 0)
    {
        write(stream->_fileno, stream->_buffer, stream->_end - 0);
        stream->_end = 0;
    }
    //fsync(stream->_fileno);//可选，我们之前都是对自己设计的语言级缓冲区进行刷新，这个系统调用是刷新内核级缓冲区的

    return 0;
}

int Myfclose(MyFILE* stream)
{
    Myfflush(stream);//先刷新，防止缓冲区内还有数据
    return close(stream->_fileno);
}

//mian.c
#include "file.h"
#include 

int main()
{
    MyFILE* fp = Myfopen("./limou.txt", "w");
    if(!fp)
    {
        perror("Myfopen()");
        return 1;
    }

    int cnt = 20;
    const char* msg = "Hello, I am limou3434.\n";
    while(cnt--)
    {
        Mywrite(msg, strlen(msg), fp);
        sleep(1);
    }

    Myfclose(fp);

    return 0;
}

6.文件系统

首先我们需要注意到，上述学习的文件都是被打开的文件（被进程访问、存储在内存中的文件），那么哪些存储在磁盘中的没有被打开的文件呢？这些文件又有哪些需要注意的地方呢？这很重要，因为有相当多的文件都是在磁盘中的（我们本节只讨论磁盘，其他类型的永久存储器也是类似的理解），这些文件都没有被打开（也就是没有加载到内存中）。

首先，我们先来理解关于磁盘的一些基本知识，这里只是简单的科普一下，这部分内容最好是参考一些关于“计算机组成原理”的资料。

6.1.磁盘角度理解磁盘文件

6.1.1.磁盘硬件结构

内存是一种失电易失存储介质（断电了内部的数据就会消失，这和内部使用的电子元件有关）
磁盘是一种永久性存储介质（还有一些别的永久性存储介质，例如：SSD、U 盘、flash 卡、光盘、磁带…但是在企业里 [2021]），使用磁盘的性价比要高）

磁盘的 IO 操作对比 CPU 的处理速度是比较慢的，因此操作系统也会有一些提速处理的方式（这里暂时不提及，您只需要知道有就是了）

而磁盘的具体结构大概为：

磁盘盘片：存储数据，一张盘片由很多密度非常大的磁性颗粒来构成，利用南北磁性表示 1/0，磁盘和磁盘之间存在悬浮避免损坏），一个磁盘存储器由多个盘片构成
磁头：用来寻址，每一个盘面都有一个磁头，磁头可以利用放电来改变盘片上颗粒的磁性，因此可以存放数据，也可以读取数据
伺服系统：待补充…
音圈马达：待补充…
…

磁盘盘片上的一圈称为“磁道”或者“柱面”，磁盘盘片由若干块扇区构成（扇区指圆环的一部分，不是指圆的一部分）。

磁盘的存储基本单位是扇区，而一般扇区的存储字节大小规定为 512 字节，也有 4KB 的（后者的比较先进 [2021]），文件操作都是 4KB 操作，但由于缓冲区的存在，用户是察觉不到 4KB 的操作的。

补充 1：这里给一份磁盘结构 3D 图示视频链接，值得一看。

补充 2：虽然磁盘基本单位扇区是 512 byte，但是操作系统的文件系统和磁盘进行 IO 动作的基本单位是 4 KB = 8 * 512 byte。哪怕系统只读写 1 bit 的数据也必须读写 4 KB。为什么不用磁盘的基本单位是因为：

512 byte 太小了，IO 操作又是频繁操作，导致效率下降

万一未来的磁盘基本单位被修改了呢？源代码也需要跟着改变，这太麻烦了（这是一种解耦合）

补充 3：4 KB 就是一个块大小，这也就是磁盘为什么被称为“块设备”的原因。

6.1.2.磁盘查找结构

无论是读还是写，首先都需要查找地址，那么如何查找存储空间的地址呢？需要三要素：

首先查找数据在哪一个盘面？
数据存在哪一个轨道/柱面上？（磁道为 Cylinder）
在哪一个扇区里？（磁头为 Head、扇区为 Sector）

这种寻址方式就是 CHS 寻址，可以找到所有扇区。

通过磁盘的旋转可以想象成线性结构，因此扇区可以抽象为数组，因此使用下标就可以寻找数据，也可以使用指针来标明不同的磁盘扇区，这就变成了 LBA 寻址，这是磁盘的一种结构体抽象，由对磁盘的管理转化为对数组的管理。

但是磁盘很大，形成的抽象数组所占空间也很大，因此可以对这个抽象数组进行拆分，也就是所谓的“磁盘分区”，便于操作系统管理和查找，而磁盘可以根据操作系统的 LBA 地址，转化为实际的 CHS 地址。

disk(磁盘)

partition(分区) 1

partition(分区) 2

partition(分区) 3

...

但是即便是做了分区，每一个区的空间依旧很大怎么办呢？我们还可以继续做磁盘抽象。

6.1.3.磁盘抽象结构

“磁盘抽象结构”也就是“虚拟/逻辑结构”，上述已经成功将磁盘理解为线性结构了，那么对于每一块磁盘分区，内部还有指针维护划分块组区间：Boot Block、Block group 0、Block group 1、…Block group n。

flowchart LR
subgraph "disk(磁盘)"
    subgraph "partition(分区) 1"
        subgraph "Boot group(根块组/启动块)"
        	H["..."]
        end
        subgraph "Block group(块组) 0"
            direction LR
            Data_blocks ~~~ Super_Block
            Data_blocks["Data blocks(多个 block 的集合)"]
            Super_Block["Super Block(文件系统的属性信息)"]
            
            Group_Descriptor_Table["Group Descriptor Table(多个 block 对应的描述符集合)"]
            Block_Bitmap["Block Bitmap(多个 block 对应的位图)"]
            block["block"] ---> Group_Descriptor_Table & Block_Bitmap
            
            inode_Table["inode Table(多个 inode 的集合)"] 
            inode_Bitmap["inode Bitmap(多个 inode 对应的位图)"]
            inode ---> inode_Table & inode_Bitmap

        end
        subgraph "Block group(块组) 1"
        	E["..."]
        end
        subgraph "Block group(块组) 2"
        	F["..."]
        end
        subgraph "Block group(块组)..."
        	G["..."]
        end
    end
    subgraph "partition(分区) 2"
        B["..."]
    end
    
    subgraph "partition(分区) 3"
        C["..."]
    end
    
    subgraph "partition(分区)..."
        D["..."]
    end
end

而每一个 Block group 的内部包含了 Super Block、Group Descriptor Table、Block Bitmap、inode Bitmap、inode Table、Data blocks（这里是我们学习的重点），这里面无非存储的就是文件的内容和属性。

Group Descriptor Table(GDT)：块组描述符，主要是描述块组的大小、块组使用程度
- inode space 的数量
- inode space 的使用程度
- inode number 的数量
- inode number 的使用程度
- …
Data Blocks：多个块（扇区空间*8 = 1KB）的集合，块里保存的都是特定文件的“内容”（Linux 将文件的属性和内容分开存储），对于每一个块，也有标识块的“块号”，那如果一个文件比较大，占用的块比较多，我们该怎么组织这些块呢？下面会进行解释，还请您继续看下去…
Block Bitmap：那么磁盘怎么知道 Data blocks 里有哪些 block 被占用？哪些可以被使用呢？使用位图 Block Bitap，只要有 $x$ 个块，就至少有 $x$ 多个比特位，比特位对应一个块，可定 $1$ 为“块被占用”， $0$ 为“块可用”。
inode Table：inode space(node 空间) 的集合。一般情况下，每个文件都会对应一个 inode space ，inode space 空间的大小是 128 byte，内部保存的是对应文件的“属性”数据
- 文件的属性
- 文件的大小
- 文件的所有者
- 文件的所属组
- 文件的最近修改时间
- …
而一个 inode space 使用 inode number(inode 编号) 来标识（）也就是 ls -al 之后每一个文件列表的第一列信息），在 inode Table 内的每一个 inode space 空间，需要有唯一一个 inode number 来标识该 inode space 。

补充 1：由于“file-inode spac-inode number”之间是一一对应的，因此 Linux 使用 inode/inode number 来唯一标识一个文件，因此我们可以 Linux 中查找一个文件不需要用到文件名，而是需要文件对应的 inode/inode number。

补充 2：一个文件不一定只占有一个块（4 KB），那文件比较大怎么办？不用担心，首先 inode space 可以存储一个关于块的数组，读取文件时，只需要找到 inode number 对应的 inode space，找到其中块的数组即可读取文件。

而如果某个块存储其他块的块号，则可以使用该块来索引其他的块，文件能使用的块就会变得更多（甚至是使用其他分区中的块）。
inode Bitmap：那么磁盘又怎么知道 inode Table 里有哪些 inode 被占用？哪些可以被使用呢？和 Block Bitap 是类似的，也是使用位图。基于上述的描述：系统可以完全掌握磁盘信息可追溯、可管理。也就是说：

(1)找到一个文件，就需要找到 inode numeber （依靠目录结构来找到）

(2)然后找到 inode space，可以找到文件属性、可以找到分区特定的块组

(3)每个块组都这么做，整个分区就被写入了文件系统信息被管理，也就是所谓的“格式化”
Super Block：超级块保存了文件系统的属性信息，包含了磁盘分区的属性，一个磁盘分区的部分块组内的 Super Block 都复制了下面的信息（对磁盘分区的管理转变为了对若干 Super Block 的管理）

分区内的块组是否为满
分区内的 inode space 是否为满
分区内有多少块组可用
分区内有多少 inode space
…

而这些信息之所以被多份放进块组的 Super Block，是因为可以达到文件备份的目的（不至于一份坏掉导致整个磁盘都无法运行）。

补充：Boot group 和计算机启动有关，可能涉及到到 BIOS 等，因此这块地方通常不会被更换（否则操作系统有可能无法启动）。

注意：“格式化”指的是建立一个完整的磁盘文件管理结构系统

低级格式化：重写磁盘上的扇区和轨道信息，以确保磁盘的物理结构得到恢复（有些时候可以作为清理磁盘的手段）

高级格式化：一种更加细致和可定制的格式化方式，可以选择不同的文件系统、分区类型、簇大小等选项，高级格式化通常需要使用第三方工具实现

上述的文件管理系统就被称为 Ext2 文件系统，但是其还欠缺一些日志、数据恢复功能，因此后续也发展了 Ext3、Ext4，不过基本的框架是类似的…

6.2.重新理解目录三权限

另外我们还可以重新理解对目录的三个权限：

w 权限（写）：一个文件的文件名是存储在目录里的，而文件名和 inode number 编号都是唯一的、一一映射的（也就是键值对关系，文件名是 key，inode number 是 value）。

这一映射关系和文件名被存储在目录的 Data blocks 里，文件名和 inode number 的键值对关系需要存储在目录的 Data blocks 里，就必须写入数据，因此我们在目录底下创建文件就必须具有对目录的写权限，这也就是为什么需要给目录赋予 w 权限的缘故。

补充：目录这个“文件”存储了目录下面文件的文件名和 inode number 的键值对关系（映射关系），这点很重要，用户使用文件名的原理深处是使用了 inode number。

因此同一个目录下不能存在两个文件名相同的文件，这个文件名是要作为 key 值来使用的。

目录下如果需要存储子目录，那么目录的 Data blocks 里实际也存储了子目录名和子目录对应的 inode number 之间的映射关系。

并且值得注意的是，Linux 下文件名不是文件的属性（inode space 内没有存储文件名），文件名存储在目录文件中。

而找到一个文件，就需要从根目录的 inode number 和键值对关系一直找下去。
r 权限（读）：有了读权限才可以显示目录中文件的名字和属性，可是 inode space 中是没有存储文件名的，因此就需要读取目录的 inode number 才可以根据键值关系来获得文件名，而根据 inode number 又可以查找对应的 number space，进而得到文件的属性。总结来说，就需要有读取到 inode number 的读权限。
x 权限（执行）：控制用户是否可以通过该目录的 inode number 进入该目录

6.3.系统创建/删除/查看文件

创建文件时系统做了什么呢？
- 首先确认在哪一个目录下创建，找到目录所在分区，遍历 inode Bitmap 找到第一个 inode space 对应位图为 0 的地方，置为 1 ，而这样遍历累加得到计数就得到一个 inode number，然后在 inode number 指向的 inode space 里设置文件的权限
- 同理遍历 Block Bitmap 找到空闲的块，确定该块用来保存文件的内容，由于是新建立的文件，内部没有内容，因此需要把对应的块清空数据（后面写入文件时，再直接从块位图中找块，然后将内容填写进去）
- 最后将 inode number 返回给用户
  补充：虽然概率很小，但是由于 inode 和块的数量是固定的，因此有可能出现一方不够用的情况
  1. inode 不够用了，创建不了文件
  2. 块不够用了，创建得了文件但是无法写入内容
删除文件时系统做了什么呢？
- 首先根据目录的 inode Bitmap 来确定目录的 Data blocks（因为目录实际也是一个文件），然后用户提供文件名，以文件名作为 key 值从目录的 Data blocks 中找到对应文件的 inode number
- 将文件在 inode 位图和 Block Bitmap 中对应的比特位置 0 ，这个文件就被变相删掉了
- 再进一步从目录中删除“file name-inode number”映射关系即可
- 换句话来说，被删除的文件的实际数据依旧存在，只不过用户此时很难通过某些类似指针的东西找回（有概率在删除文件之后可以恢复文件，事实上也确实存在类似这样的软件），并且被删除文件占有的空间会被随时覆盖，内部数据不再被系统刻意维护
补充：如果实际情况中，我们不小心误删了一个文件，我们需要做的第一件事情是什么？答案是“什么都不做”，避免过多的操作导致原有文件数据被其他数据覆盖。第二件事情，就是根据文件的 inode number 找到对应的 inode Bitmap 置 1，再根据 inode space 将对应的块组 Block Bitmap 置为 1
查看文件时系统做了什么呢？

ls、cat 等指令的时候，ls 首先找到目录以及目录的 inode 编号，找到所有的文件名和对应的文件 inode 编号，然后感觉对应的 inode 位图找到所有的属性然后和文件名字拼接输出即可，而 cat 也是类似的只不过是根据文件属性找到对应块的文件内容…
补充 1：如果不断访问一个目录，Linux 就会利用 struct dentry{/*...*/}; 数据结构，将常用的文件名字和路径导入到内存中，加快访问速度，这个了解下就行…

补充 2：实际上 inode number 并不难找，问题是如何找到一开始的分区，不同分区的内的 inode number 有可能相同，这该如何确定 inode number 在哪个分区呢？

一般情况下，一旦格式化分区后，需要挂载分区，才能使用该分区，挂载语法类似 sudo mount <分区> <指定目录>，这样目录就可以和分区关联起来，因此访问目录就可以访问该分区，因此只要确定访问哪个目录，就可以确定访问哪个分区…

可以使用命令 df -h 来查看系统中分区的挂载情况：
```
# 查看系统中分区的挂载情况
$ df -h
Filesystem      Size  Used Avail Use% Mounted on
devtmpfs        988M     0  988M   0% /dev
tmpfs          1000M   24K 1000M   1% /dev/shm
tmpfs          1000M  848K  999M   1% /run
tmpfs          1000M     0 1000M   0% /sys/fs/cgroup
/dev/vda1        50G   18G   30G  37% /
tmpfs           200M     0  200M   0% /run/user/1001
tmpfs           200M     0  200M   0% /run/user/1007
tmpfs           200M     0  200M   0% /run/user/1005
/dev/sr0         19M   19M     0 100% /iso
```
在我的云服务器下显示这一行 /dev/vda1 50G 18G 30G 37% / 就是表明把分区 /dev/vda1 挂载到 / 下，也就是说，整个系统都只使用了一个分区（买得是比较便宜的服务器）。

因此所谓的挂载就是把目录的数据结构和文件系统的数据结构拿指针关联起来，因此访问某一个分区，就访问对应挂载的目录即可。

而进程在打开某个文件的时候，内部 PCB 保存了工作目录（含有分区），就去根据这个地址逐步映射到最终文件的 inode space，找到文件的属性填充到内存中的 struct file{/*...*/} 中，把对应的块中的内容也预加载进缓冲区即可。

10.软硬链接

10.1.软硬链接的创建

经过上述的铺垫，我们可以来理解软硬链接了，首先我们先来尝试创建链接：

ln -s <目标文件> <链接名> 可以创建软链接，s 就是 soft 的意思
ln <目标文件> <链接名> 可以直接创建硬链接

10.2.软件链接的区别

两者有什么差别呢？软链接有自己独立的 inode，并且不会增加文件的硬链接数。而硬链接 inode 和对应的文件 inode 是一样的（这意味着硬链接不是一个独立的文件），并且会增加硬链接数（是对文件的一种引用计数）。

查看硬链接数
$ ls -li
total 4
1840738 drwxrwxr-x 2 limou limou 4096 Oct  1 22:42 dir
1840740 -rw-rw-r-- 4 limou limou    0 Oct  1 22:42 hard-link-1
1840740 -rw-rw-r-- 4 limou limou    0 Oct  1 22:42 hard-link-2
1840740 -rw-rw-r-- 4 limou limou    0 Oct  1 22:42 hard-link-3
1840850 lrwxrwxrwx 1 limou limou    4 Oct  1 22:44 soft-link -> text
1840739 -rw-rw-r-- 1 limou limou    0 Oct  1 22:42 text
1840740 -rw-rw-r-- 4 limou limou    0 Oct  1 22:42 text_1
1840747 -rw-rw-r-- 1 limou limou    0 Oct  1 22:42 text_2
1840849 -rw-rw-r-- 1 limou limou    0 Oct  1 22:42 text_3

软链接类似于 Windows 下的快捷方式，是一个独立的文件，可以更加快捷使用某些程序和工具，而软链接内部文件内容实际上就存储了指向目标文件的路径（WIndows 下打开快捷方式的属性就会看得更清楚）。

硬链接只是在指定的目录下，新建立了文件名和 inode number 的映射存入到当前目录里而已（因为硬链接的 inode number 和目标文件的 inode number 是一样的），也可以说是给文件重命名，实际上硬链接数就是文件在引用计数的应用。

当我们删除文件的时候，引用计数减 1，只有引用计数为 0 的时候（没有文件名和 inode number 映射时），该文件才会被彻底删除，而创建硬链接的时候，引用计数加 1。

我们甚至可以尝试使用 unlink <文件名> 指令来减少某个文件的引用计数，达到 rm 的效果（系统调用也有一个加 unlink() 的函数）并且我更推荐这种删除方法。

而对于刚刚被创建出来的目录，其硬链接数默认为 2：

一个是自己本身（自己就是自己的硬链接）
另一个是目录内部的 .，这个 . 用于使用相对路径，其实际上是目录的一个硬链接。因此使用 . 就是使用目录（而 .. 就是目录的父目录的硬链接）

而如果我们在空目录内再新建一个子目录，那空目录的硬链接数可以达到 3。

下面我们利用一个简单的 C++ 代码进行对软硬链接的模拟：

//使用 C++ 代码来模拟软硬链接原理
int main()
{
    int file = 10; //文件本体
    int* pfile = &file; //pfile 就类似 file 的软连接
    int& File = file; //File 就类似 file 的硬链接
    return 0;
}

补充：实际上用户无法自己对目录建立硬链接（但是系统又给 . 和 .. 开了后门，这是特殊规定），这是为什么呢？这是因为硬链接本质是指向同一个文件/目录，一旦允许对目录进行硬链接，就会导致循环查找，无法停止。

root

dir1

dir2

dir3

dir4

dir5

dir6[同时也是指向 root 的硬链接]

test.txt

上图中需要查找文件 test.txt，假设采用深度遍历，从 root 查询到 dir6 后，又回到了 root，因此就陷入了死循环（查找文件的第一件事情肯定是查询目录，如果遇到文件直接对比就行，而软链接是文件也就不会被打开，因此允许软链接而不允许硬链接）。

11.动静态库

8.1.静态库制作和使用

8.1.1.静态库制作

实际上，我们可以把 function.h 文件和经过 gcc -c function.c -o function.o 后的文件给别人，就可以给别人使用您编写的函数。如果将多个 .o 文件打包起来，就是“形成静态库”的过程，使用 ar -rc <目标静态库名，前缀lib，后缀.a> <.o文件列表> 命令即可完成打包（r 指替换， c 指创建）。

补充：Windows 和 Linux 两个平台的动静态库后缀名不一样

Windows：

(1)静态库：.lib

(2)动态库：.dll

CentOS(Linux)：

(1)静态库：.a

(2)动态库：.so

下面让我们来试试制作一个静态库：

//编写自定义静态库源代码（Print.h）
#pragma once
#include 
#include 
extern void Print(const char* str);

//编写自定义静态库源代码（Print.c）
#include "function1.h"
extern void Print(const char* str)
{
    printf("%s\n", str);
}

//编写自定义静态库源代码（Add.h）
#pragma once
#include 
extern int Add(int i);

//编写自定义静态库源代码（Add.c）
#include "function2.h"
int Add(int i)
{
    printf("%d\n", i + i);
    return i + i;
}

然后根据这些源文件和静态库制作的指令生成静态库。

# 制作静态库
# (1)制作 .o 文件
$ gcc -c function1.c -o function1.o # 这里的 -o 可以不加，默认生成和 .c 文件同名的 .o 文件
$ gcc -c function2.c -o function2.o # 这里的 -o 可以不加，默认生成和 .c 文件同名的 .o 文件

$ ls
function1.c function1.h function1.o
function2.c function2.h function2.o

# (2)使用 ar 指令制作静态库（-rc 为 replace and create）
$ ar -rc -o libfunction.a function1.o function2.o

# (3)整理文件
$ rm function1.c function2.c function1.o function2.o

$ ls
function1.h function2.h libfunction.a

$ mkdir -p mylib/include
$ mkdir -p mylib/lib

$ mv function1.h ./mylib/include
$ mv function2.h ./mylib/include
$ mv libfunction.a ./mylib/lib

补充：上述过程中最好使用 makefile 来自动化生成。

然后编写一份将来要调用我们制作的库文件的 mian() 程序。

//主程序（main.c）
#include "function1.h"
#include "function2.h"
int main()
{
    Print("I am limou.");
    printf("%d\n", Add(50));
    return 0;
}

此时由于我们写的静态属于第三方库（gcc 默认不识别），因此需要我们手动链接才可使用。

8.1.2.静态库使用

一般制作库后，有一个目录为 include 专门放头文件，还有一个目录为 lib 专门放静态库文件（上述代码中我就是这样做的）。打包好两个文件后就可以上线发布了，用户使用这两者即可使用内部的函数，有三种使用方法：

直接修改系统文件：gcc 头文件的默认搜索路径是 /usr/include，而 gcc 库文件的默认搜索路径是 /lib64 或者 /usr/lib64，我们直接将我们做的头文件和库拷贝进去即可。在使用我们的库时，可以在 main() 所在文件使用 <> 引用头文件，也可以使用 ""，然后使用 gcc <使用静态库的源文件> -l <指定目标静态库文件，去掉lib和.a> 即可通过使用（这个过程实际就是安装库的过程，但绝不推荐这么做，容易污染别的头文件和库文件）
用户直接包含目标头文件然后使用 gcc 链接：由用户使用 include 语句，直接指向头文件的所在地，再链接的使用 gcc 链接已经准备好的库 gcc 用户的源代码（含有main.c） -L <静态库文件的父路径> -l <指定目标静态库文件，去掉lib和.a>
直接使用 gcc 进行包含和链接：将打包好的 include 和 lib 文件放在包含 main() 源文件的同级目录下，然后直接使用 gcc 用户的源代码（含有main.c） -I <头文件所在的父路径> -L <静态库文件的父路径> -l <指定目标静态库文件，去掉lib和.a>

(1)I：是 include 的意思

(2)L：是 Library 的意思
```
# 在代码中使用静态库
$ gcc test.c -I ./mylib/include -L ./mylib/lib -l function
$ ls
a.out mylib test.c

$ ./a.out
I am limou.
100
```

补充：如果我们使用指令 ldd <可执行文件> 是不会指出依赖哪一个静态库的，因为该指令只会指出依赖了哪些动态库，而静态库早就把内部代码拷贝进可执行文件里了。

总结：实际上您可以认为静态库是程序员编译源文件中的一种“偷懒行为”，只是在输入指令的长度上变短了（因为实际项目很可能会有多个头文件和对应实现，一个一个写太麻烦了，还有写错的可能），效率并没有提升多少…

8.2.动态库的制作和使用

8.2.1.动态库制作

使用命令 gcc -fPIC -c <.c文件名> -o <.o文件名> 形成一个与目标位置无关的二进制文件，然后使用 gcc -shared <.o文件列表> -o <目标动态库名，前缀lib，后缀.so>（这的 -shared 实际上就是“共享”的意思）。

接着发布动态库，也是分为 include 和 lib，静态库和动态库可以放在一起。

8.2.2.动态库使用

静态库不需要自己加载到内存，因为程序在编译链接的时候就把库中的代码直接链接到可执行文件中，相当于方法直接拷贝给程序了，这些方法直接跟随进程一起加载到内存即可，进程运行起来后，静态库就没有用处了（整个程序的运行过程中都不会用到静态库了）。
而动态库和可执行文件可以分批加载到内存，并且加载一次动态库就可以被系统内所有的进程使用，而静态库就有可能会出现多份相同的代码和数据。

使用动态库也有四种常见的方法：

直接修改系统文件：和静态库一样，直接将对应的头文件和库文件分别拷贝到 /usr/include 和 /lib64（或 /usr/lib64），然后使用命令 gcc <包含main.c的源代码> -I <头文件的所在路径> -L <库文件的所在路径> （最后一个选项如果指定的动静态库同名，则默认使用动态库，如果只有静态库则会使用静态库，不过可以使用 -static 强制使用静态库），最后就可以生成可执行程序了。

但是此时还有一个问题，虽然程序可以通过编译了，但是运行和编译器没有关系（那是操作系统的事，编译器只是辅助编译和翻译指令而已），因此就算编译器找得到动态库的文件，但是操作系统不知道，导致动态库并没有跟随程序一起加载进内存，进而运行起来。

因此我们必须添加多一个选项，也就是 gcc <包含main.c的源代码> -I <头文件的所在路径> -L <库文件的所在路径> -l <使用的动态库名字，去掉lib和.so>，使用 -l 来指定动态库名称。

补充：gcc 在默认情况下，都是有动态库就用动态库。若特定库只有静态库可用，就会允许动静态库同时混杂链接的情况。而如果只有动态库且没有静态库，却强制使用 -static 那么该库就不会被链接。
设置对应的环境变量：如果我们不选择拷贝这种粗暴的方式，就必须配置相关的环境变量 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:<动态库所在的绝对路径>，该环境变量翻译为“加载动态库路径”，用于告诉操作系统动态链接器在运行时查找共享库的位置，我们把自己的动态库文件路径添加进去就行（平时调试自定义的第三方库的时候可以用这种方式），注意不同环境对应的这个环境变量不太一样。
设置对应的配置文件：而上述环境变量是具有临时性的，如果关闭了终端就会清除（或者说“只在当前会话有效”）。这是因为该环境变量是内存级别的环境变量。但也有一劳永逸的方法，在 Linux 的 /etc/ld.so.conf.d/，在这里创建一个 .conf 文件，在内部写入动态库的路径直接保存即可。这样就可以永久保存动态库的搜索路径，以后关闭终端也不会丢失该路径信息。

补充 1：这里有一个有趣的现象，如果运行带有动态库的程序成功后，删除掉之前创建的 .conf 文件，之后重新启动程序，程序还是可以正常运行，这是因为有关动态库路径和相关数据都还在系统缓存中保存着。

补充 2：/etc/ld.so.conf.d/ 内通常包含一些配置文件，这些文件用于指定系统动态链接器在运行时查找共享库/动态库的路径。这个目录中的配置文件允许用户或系统管理员添加额外的共享库/动态库路径，以便动态链接器能够找到程序所依赖的库。

每个配置文件中通常包含一行路径信息，指定了一个共享库路径。这样，系统就知道在运行程序时去哪里查找共享库。这些配置文件的命名通常以 .conf 为后缀，并且系统动态链接器会按照这些文件的顺序读取路径。
创建对应的软链接：那还有没有更简单的办法呢？有的，使用命令 gcc <包含main.c的源代码> -I <头文件的所在路径> -L <库文件的所在路径> 后，建立一个指向自定义动态库的软链接，然后直接存在在和可执行程序相同的路径下，或这存放在 /lib64 下，这样就可以直接运行可执行程序（gcc 虽然不会自动寻找和可执行程序同目录下的静态库，但是会自动寻找动态库）。

补充：源文件路径和工作路径

如果我们使用 C 语言打开一个文件后直接进入死循环，然后打开进程 ID 对应在 /proc/进程ID 对应的文件，就可以看到当前这个进程的进程信息。其中：

exe 指向的是该进程对应源文件在磁盘上的路径

cwd 指向当前的工作路径，这也就是为什么直接用追加读写模式的时候可以在源文件同级的目录下新建文件（能直接使用某些动态库和静态库的原理也类似）
//写入文件
#include 
#include 
#include 
int main()
{
    FILE* fp = fopen("limou.txt", "w");//最后一个参数是打开模式：r 是只读，w 是写入，a 是追加。
    if(!fp) 
    {
        preeor("fopen()");
        return 1;
    }

    const char* s1 = "hello fwrite.\n";
    fwrite(s1, strlen(sl), 1, fp);//这里会发现这个字符串不需要结尾加上 `\0`，因为这只是 C 语言的规定，已经写入到文件中的数据就已经和 C 语言无关了，不适合文件中的规则，文件只需要保存有效数据就可以

    const char* s2 = "hello fprintf.\n";
    fprintf(fp, "%s", s2);

    const char* s3 = "hello fputs.\n";
    fputs(s3, fp);

    fclose(fp);
    return 0;
}

总结：总结起来的话：使用动态库就不仅仅是手动输入指令上的“偷懒”了，还提高了程序运行的效率，更好利用了资源空间。下面总结我们自己常用的第三方库的制作和安装方法…

ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
Linux系统配置（应用程序） 1风天云月 Linux linux 应用程序编译安装 rpm http
目录前言一、应用程序概述1、命令与程序的关系2、程序的组成3、软件包封装类型二、RPM1、RPM概述2、RPM用法三、编译安装1、解包2、配置3、编译4、安装5、启用httpd服务结语前言在Linux中的应用程序被视为将软件包安装到系统中后产生的各种文档，其中包括可执行文件、配置文件、用户手册等内容，这些文档被组织为一个有机的整体，为用户提供特定的功能，因此对于“安装软件包”与“安装应用程序”这两
可处理！环境排放3.0项目怎么提现？裕华投资会刘裕华免费荐股骗局曝光！墨守成法
骗子冒充裕华投资会刘裕华通过伪造或仿冒投资平台，向股民发送虚假环境排放3.0项目链接，引导股民者下载进行投资，以送一万体验金操作小额投资能提现作为诱饵，不断引导消费者加大资金投入。不法分子随后迅速转移资金，当投资者要提现时候就以“流水未完成”“登录异常”“服务器维护”“比赛未结束”等借口不让提现，直到平台关闭跑了或者完成流水任务为由一波亏完。在以翻本为借口继续让投资者加入资金。若你不幸遭遇到裕华投
包含日志获取webshell 陈望_ning
日志文件关闭：Apache目录下的httpd.conf文件#ErrorLog"logs/error.log"#CustomLog"logs/access.log"common加#号为注释不产生日志文件如果去掉#将会在Apache/logs/目录下产生日志文件linux:access_logerror_logwindows:access.logerror.logaccess_log每一行记录了一次网
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
K8S 常用命令全解析：高效管理容器化集群恩爸编程 docker kubernetes 容器 k8s常用命令 k8s有哪些常用命令 k8s命令有哪些 K8S常用命令有哪些
K8S常用命令全解析：高效管理容器化集群一、引言Kubernetes（K8S）作为强大的容器编排平台，其丰富的命令行工具（kubectl）为用户提供了便捷的方式来管理集群中的各种资源。熟练掌握K8S常用命令对于开发人员和运维人员至关重要，能够有效提高容器化应用的部署、监控与维护效率。本文将详细介绍一些K8S常用命令及其使用案例。二、基础资源操作命令（一）kubectlcreate功能：用于创建K8
新手如何通过github pages静态网站托管搭建个人网站和项目站点 vvandre Web技术 github
一、githubpages静态网站托管介绍githubpages它是一个免费快捷的静态网站托管服务。对比传统建站，它有哪些优点呢？在传统方式中，首先要租用服务器，服务器上需要运行外部程序，还需要再购买域名，要配置SSL证书，最后还要配置DNS，将域名解析到服务器。这一套繁琐操作，基本上就把小白劝退了。graphTDA[租用服务器]-->B[部署Web应用(运行外部程序，如Nginx)]B-->C[
word转pdf、pdf转word在线工具分享 bpmh 常用工具 word pdf
️一、在线转换网站（方便快捷，无需安装）MicrosoftOfficeOnline(官方推荐，最安全可靠)：网址：直接使用你的Microsoft账户登录https://www.office.com/方法：将你的.docx或.doc文件上传到OneDrive。在OfficeOnline中打开该Word文档。点击文件>另存为>下载PDF副本。优点：官方出品，完全免费，无需额外上传到第三方服务器，安全性
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
在Windows11上安装Linux操作系统的几种技术方案 yuanpan linux 运维服务器
在Windows11上安装Linux主要有以下几种技术方案，每种方案适用于不同的需求场景：1.WindowsSubsystemforLinux(WSL)适用场景：开发、命令行工具、轻量级Linux环境支持发行版：Ubuntu、Debian、KaliLinux、Fedora等优点：轻量级：无需虚拟机，直接在Windows上运行Linux命令行环境。无缝集成：可访问Windows文件系统，支持VSCo
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
Claude Code 超详细完整指南（2025最新版）笙囧同学 python
终端AI编程助手|高频使用点+生态工具+完整命令参考+最新MCP配置目录快速开始（5分钟上手）详细安装指南系统要求Windows安装（WSL方案）macOS安装Linux安装安装验证配置与认证首次认证环境变量配置代理配置⚡基础命令详解启动命令会话管理文件操作Think模式完全指南MCP服务器配置详解MCP基础概念添加MCP服务器10个必备MCP服务器MCP故障排除记忆系统详解高级使用技巧成本控制策
负载均衡-加权随机算法 BP白朴 Nginx 负载均衡 java 算法服务器
负载均衡-加权随机算法由于访问概率大致相同，所以如果部分服务器性能不一致的话，容易导致性能差的服务器压力过大，所以要根据服务器性能不一致的情况，给性能好的服务器多处理请求，给差的少分配请求（能者多劳）所以就需要在随机算法的基础上给每台服务器设置权重，延伸为加权随机算法1、将应用服务器集群的IP存到Map里,每个IP对应有一个权重2、创建一个List,来将所有权重下的IP存到list里面如：192.
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和运行 Redis 服务器山岚的运维笔记 Linux 运维及使用 linux 服务器 ubuntu redis 数据库
Redis（RemoteDictionaryServer，远程字典服务器）是一种内存数据结构存储，通常用作NoSQL数据库、缓存和消息代理。它是开源的，因此用户可以免费安装，无需支付任何费用。Redis旨在为需要快速数据访问和低延迟的应用程序提供速度和效率。Redis支持多种数据类型，包括字符串（Strings）、列表（Lists）、集合（Sets）、哈希（Hashes）、有序集合（SortedS
彻底搞懂Cache-Control qu木木网络 http 缓存
文章目录一、是什么？二、核心作用三、指令详解（常用）四、常见场景配置示例五、重要注意事项一、是什么？Cache-Control是HTTP头部中最关键、最灵活的控制缓存的字段，用于定义在客户端（浏览器）和代理服务器（如CDN）上的缓存策略。它取代了HTTP/1.0时代较为简单的Expires和Pragma头部，提供了更精细的控制。二、核心作用是否缓存：明确支出响应是否可以缓存，以及可以被谁缓存（浏览
webSocket双向通信 @泽栖 websocket 网络协议网络
webSocket基础使用webSocket小说明：作用浏览器与服务器全双工通信——浏览器和服务器只需要完成一次握手，两者之间就可以创建持久性的连接，并进行双向数据传输。WebSocket与HTTP最大的区别HTTP通信是单向的，基于请求响应模式WebSocket支持双向通信。实现长连接适用场景：消息通信，视频弹幕，实时信息，等双向通信的使用需求使用：引入maven依赖org.springfram
Linux中Samba服务器安装与配置文件長樂.- linux 运维服务器
Samba简述27zkqsamba是一个基于TCP/IP协议的开源软件套件，可以在Linux、Windows、macOS等操作系统上运行。它允许不同操作系统的计算机之间实现文件和打印机共享。samba提供了一个服务，使得Windows操作系统可以像访问本地文件一样访问Linux、Mac等操作系统上的共享文件。实现跨平台的文件共享，提高办公环境的效率和便利性。samba也支持Windows网络邻居协
Docker ℡余晖^ 黑马点评项目相关问题和笔记 docker eureka 容器
在黑马点评项目中，在谈到Redisson解决redis的主从一致性问题时，弹幕提到了Docker，本文来简单了解一下Docker，我的初步理解运维是维护多个集群的稳定，那它和VM虚拟机的区别又是什么？，如果要更深入地理解与学习（运维工程师），可以到b站搜索专门的课程（SpringCloud）。一、Docker是什么？重新理解“容器化”的本质1.1Docker的定义Docker是一个开源的容器化平台
ubuntu qt环境下出现No suitable kits found解决方案
1.清理QtCreator缓存QtCreator会缓存项目配置、索引等数据，可能导致某些异常。清理方法：(1)删除QtCreator配置目录bashrm-rf~/.config/QtProject/（Ubuntu/Linux）或Windows：cmdrmdir/s/q"%APPDATA%\QtProject"(2)清除QtCreator的编译缓存bashrm-rf~/.cache/QtProjec
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和使用 NoMachine 山岚的运维笔记 Linux 运维及使用 linux ubuntu 运维 nomachine 远程连接
NoMachine是一款适用于Linux（Ubuntu）及其他支持的操作系统的远程桌面应用程序，允许用户通过本地或远程系统从世界任何地方控制计算机。它可以在低带宽连接下工作，被专业人士和家庭用户广泛使用。NoMachine的主要功能高性能远程访问跨平台兼容性易于使用，因为用户界面友好提供强大的加密协议，如SSH、SSL及其他安全标准支持远程文件传输和打印服务允许从远程计算机进行音频和视频流媒体传输
构建高性能Web应用：深入Spring WebFlux 李多田
本文还有配套的精品资源，点击获取简介：SpringWebFlux是Spring框架的一部分，支持反应式编程模型，适合高并发和低延迟Web应用。它提供了非阻塞I/O和事件驱动模型，优化了多核处理器资源的使用。SpringWebFlux拥有两种编程模式，核心组件包括WebHandler,RouterFunction,WebFilter,和WebSession。它与高性能服务器集成，并提供反应式HTTP
为什么学习Web前端一定要掌握JavaScript？ web前端学习指南
为什么学习Web前端一定要掌握JavaScript？在前端的世界里，没有什么是JavaScript实现不了的，关于JS有一句话：凡是可以用JavaScript来写的应用，最终都会用JavaScript，JavaScript可运行在所有主要平台的所有主流浏览器上，也可运行在每一个主流操作系统的服务器端上。现如今我们在为网站写任何一个主要功能的时候都需要有懂能够用JavaScript写前端的开发人员。
Spring Security OAuth2.0在分布式系统中的安全实践
引言分布式系统架构下，安全认证与授权面临跨服务、高并发、多租户等挑战。SpringSecurity与OAuth2.0的结合为微服务安全提供了标准化解决方案。分布式系统中的安全挑战跨服务身份认证的复杂性令牌管理的可扩展性问题多租户场景下的权限隔离需求防止CSRF、XSS等常见攻击SpringSecurityOAuth2.0核心架构授权服务器设计@EnableAuthorizationServer配置
Spring Native与GraalVM：无服务器架构的突破 tmjpz04412 spring serverless 架构
SpringNative与GraalVM的关系SpringNative是Spring生态系统的一个模块，旨在支持将Spring应用编译为原生可执行文件。GraalVM是一个高性能运行时，提供原生镜像编译能力，允许将Java应用转换为独立的可执行文件。两者结合，显著提升了启动速度和内存效率。无服务器架构中的优势原生编译后的应用启动时间从秒级降至毫秒级，完美适配无服务器环境的冷启动需求。内存占用减少5
linux实战--日志管理
简介日志文件重要的信息系统文件，及了许多重要的系统事件，包括用户的登录信息，系统的启动信息，系统的安全信息，邮寄相关信息，各种服务相关的信息。日志对安全也很重要。每天记录系统发生的各种事情，通过日志检查错误发生的原因或受到攻击时攻击者留下的痕迹。总的来说，日志是记录重大事件的文件。处理日志的工具rsyslog系统日志管理专职管理日志的工具，它产生各种信息文件，主要存放在/var/loglogrot
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe