QEMU&KVM 虚拟机实例demo以及RISCV上KVM的实现分析

KVM(Kernel Virtual Machine)是基于Linux内核的开源的虚拟化解决方案,KVM从linux-2.6.20版本开始被合入kernel主分支维护,成为linux的重要模块之一。KVM本身能够提供CPU虚拟化和内存虚拟化等部分功能,而其它设备的虚拟化和虚拟机的管理工作,则需要依靠QEMU完成,在KVM虚拟化环境中,一个虚拟机就是一个传统的Linux 进程,运行在Qemu-KVM进程的地址空间,KVM和QEMU相结合,一起向用户提供完整的平台虚拟化。在KVM虚拟化方案中,通过在Linux内核中增加虚拟化管理模块,直接使用linux非常成熟和完善的模块和机制。例如内存管理和进程调度等,从而使Linux内核成为能够支持虚拟机运行的hypervisor.

本实验原理是将一个精简内核注入KVM虚拟机运行,当KVM虚拟机执行到IO指令的时候,借助用户态的MINI QEMU将信息打印出来。

主机环境:

QEMU&KVM 虚拟机实例demo以及RISCV上KVM的实现分析_第1张图片

存在/dev/kvm设备节点:

kvm is a misc char device in kernel:

QEMU&KVM 虚拟机实例demo以及RISCV上KVM的实现分析_第2张图片

KVM function enabled by CONFIG_KVM in kernel ,you can compile it to kvm.ko(CONFIG_KVM=m) or builtin the kernel (CONFIG_KVM=y), also ,you should enable with  CONFIG_KVM_INTEL item setting m or y, in order to support arch specific instrucdtions support for KVM.

QEMU&KVM 虚拟机实例demo以及RISCV上KVM的实现分析_第3张图片

KVM is not related with paravirtualiztion configuration CONFIG_XEN ,so you can disable KVM

but use KVM without any trouble.

QEMU&KVM 虚拟机实例demo以及RISCV上KVM的实现分析_第4张图片

start

首先编写一个精简内核,代码如下:

start:
mov   $0x48, %al
outb  %al,   $0xf1 
mov   $0x65, %al
outb  %al,   $0xf1
mov   $0x6c, %al
outb  %al,   $0xf1
mov   $0x6c, %al
outb  %al,   $0xf1
mov   $0x6f, %al
outb  %al,   $0xf1
mov   $0x0a, %al
outb  %al,   $0xf1
hlt

编译:

as -32 test.S -o test.o
objcopy -O binary test.o test.bin

 将test.bin转换为数组指令

(base) caozilong@caozilong-Vostro-3268:~/Workspace/kvm$ xxd -i test.bin 
unsigned char test_bin[] = {
  0xb0, 0x48, 0xe6, 0xf1, 0xb0, 0x65, 0xe6, 0xf1, 0xb0, 0x6c, 0xe6, 0xf1,
  0xb0, 0x6c, 0xe6, 0xf1, 0xb0, 0x6f, 0xe6, 0xf1, 0xb0, 0x0a, 0xe6, 0xf1,
  0xf4
};
unsigned int test_bin_len = 25;
(base) caozilong@caozilong-Vostro-3268:~/Workspace/kvm$

开发用户态QEMU

代码中的code数组即是上面转换为字符数组的内核指令。

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

int main(void)
{
    int kvm, vmfd, vcpufd, ret;

    unsigned char code[] = {
      0xb0, 0x48, 0xe6, 0xf1, 0xb0, 0x65, 0xe6, 0xf1, 0xb0, 0x6c, 0xe6, 0xf1,
      0xb0, 0x6c, 0xe6, 0xf1, 0xb0, 0x6f, 0xe6, 0xf1, 0xb0, 0x0a, 0xe6, 0xf1,
      0xf4
    };

    uint8_t *mem;
    struct kvm_sregs sregs;
    size_t mmap_size;
    struct kvm_run *run;
    
    // 获取 kvm 句柄
    kvm = open("/dev/kvm", O_RDWR | O_CLOEXEC);
    if (kvm == -1)
    {
        err(1, "/dev/kvm");
    }

    // 确保是正确的 API 版本
    ret = ioctl(kvm, KVM_GET_API_VERSION, NULL);
    if (ret == -1)
        err(1, "KVM_GET_API_VERSION");
    if (ret != 12)
        errx(1, "KVM_GET_API_VERSION %d, expected 12", ret);
    
    // 创建一虚拟机
    vmfd = ioctl(kvm, KVM_CREATE_VM, (unsigned long)0);
    if (vmfd == -1)
        err(1, "KVM_CREATE_VM");
    
    // 为这个虚拟机申请内存,并将代码(镜像)加载到虚拟机内存中
    mem = mmap(NULL, 0x1000, PROT_READ | PROT_WRITE, MAP_SHARED | MAP_ANONYMOUS, -1, 0);
    if (!mem)
        err(1, "allocating guest memory");
    memcpy(mem, code, sizeof(code));

    // 为什么从 0x1000 开始呢,因为页表空间的前4K是留给页表目录
    struct kvm_userspace_memory_region region = {
        .slot = 0,
        .guest_phys_addr = 0x1000,
        .memory_size = 0x1000,
        .userspace_addr = (uint64_t)mem,
    };
    // 设置 KVM 的内存区域
    ret = ioctl(vmfd, KVM_SET_USER_MEMORY_REGION, ®ion);
    if (ret == -1)
        err(1, "KVM_SET_USER_MEMORY_REGION");
    
    // 创建虚拟CPU
    vcpufd = ioctl(vmfd, KVM_CREATE_VCPU, (unsigned long)0);
    if (vcpufd == -1)
        err(1, "KVM_CREATE_VCPU");

    // 获取 KVM 运行时结构的大小
    ret = ioctl(kvm, KVM_GET_VCPU_MMAP_SIZE, NULL);
    if (ret == -1)
        err(1, "KVM_GET_VCPU_MMAP_SIZE");
    mmap_size = ret;
    if (mmap_size < sizeof(*run))
        errx(1, "KVM_GET_VCPU_MMAP_SIZE unexpectedly small");
    // 将 kvm run 与 vcpu 做关联,这样能够获取到kvm的运行时信息
    run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED, vcpufd, 0);
    if (!run)
        err(1, "mmap vcpu");

    // 获取特殊寄存器
    ret = ioctl(vcpufd, KVM_GET_SREGS, &sregs);
    if (ret == -1)
        err(1, "KVM_GET_SREGS");
    // 设置代码段为从地址0处开始,我们的代码被加载到了0x0000的起始位置
    sregs.cs.base = 0;
    sregs.cs.selector = 0;
    // KVM_SET_SREGS 设置特殊寄存器
    ret = ioctl(vcpufd, KVM_SET_SREGS, &sregs);
    if (ret == -1)
        err(1, "KVM_SET_SREGS");
    
    // 设置代码的入口地址,相当于32位main函数的地址,这里16位汇编都是由0x1000处开始。
    // 如果是正式的镜像,那么rip的值应该是类似引导扇区加载进来的指令
    struct kvm_regs regs = {
        .rip = 0x1000,
        .rax = 2,    // 设置 ax 寄存器初始值为 2
        .rbx = 2,    // 同理
        .rflags = 0x2,   // 初始化flags寄存器,x86架构下需要设置,否则会粗错
    };
    ret = ioctl(vcpufd, KVM_SET_REGS, ®s);
    if (ret == -1)
        err(1, "KVM_SET_REGS");

    // 开始运行虚拟机,如果是qemu-kvm,会用一个线程来执行这个vCPU,并加载指令
    while (1) {
        // 开始运行虚拟机
        ret = ioctl(vcpufd, KVM_RUN, NULL);
        if (ret == -1)
            err(1, "KVM_RUN");
        // 获取虚拟机退出原因
        switch (run->exit_reason) {
        case KVM_EXIT_HLT:
            puts("KVM_EXIT_HLT");
            return 0;
        // 汇编调用了 out 指令,vmx 模式下不允许执行这个操作,所以
        // 将操作权切换到了宿主机,切换的时候会将上下文保存到VMCS寄存器
        // 后面CPU虚拟化会讲到这部分
        // 因为虚拟机的内存宿主机能够直接读取到,所以直接在宿主机上获取到
        // 虚拟机的输出(out指令),这也是后面PCI设备虚拟化的一个基础,DMA模式的PCI设备
        case KVM_EXIT_IO:
                putchar(*(((char *)run) + run->io.data_offset));
            break;
        case KVM_EXIT_FAIL_ENTRY:
            errx(1, "KVM_EXIT_FAIL_ENTRY: hardware_entry_failure_reason = 0x%llx",
                 (unsigned long long)run->fail_entry.hardware_entry_failure_reason);
        case KVM_EXIT_INTERNAL_ERROR:
            errx(1, "KVM_EXIT_INTERNAL_ERROR: suberror = 0x%x", run->internal.suberror);
        default:
            errx(1, "exit_reason = 0x%x", run->exit_reason);
        }
    }

	return 0;
}

你可能感兴趣的:(KVM,虚拟化,内存管理,linux,KVM,QEMU)