青禾子的夏

Transiting from CUDA to HIP（三）

一、Workarounds

1. memcpyToSymbol

在 HIP (Heterogeneous-compute Interface for Portability) 中，hipMemcpyToSymbol 函数用于将数据从主机内存复制到设备上的全局内存或常量内存中，这样可以在设备端的内核中访问这些数据。这个功能特别有用，因为它允许在主机端定义数据符号，并在设备端的内核中使用这些符号。

#include 
#include 
#include 
#define HIP_ASSERT(status) \ 
    assert(status == hipSuccess) 
#define LEN 512 
#define SIZE 2048 
__constant__ int Value[LEN]; // 定义了一个设备端的常量内存中的数组
__global__ void Get(hipLaunchParm lp, int *Ad) 
{ 
    int tid =threadIdx.x + blockIdx.x *blockDim.x; 
    Ad[tid] = Value[tid]; 
} 
int main() 
{ 
    int *A, *B, *Ad; 
    A = new int[LEN]; 
    B = new int[LEN]; 
    for(unsigned i=0;i

 
  note: #define HIP_SYMBOL(name)：这是一个宏，用于将符号名称封装为 HIP 需要的格式。在调用 hipMemcpyToSymbol、hipMemcpyFromSymbol、hipGetSymbolAddress 和 hipGetSymbolSize 时，需要使用这个宏 
  2. CU_POINTER_ATTRIBUTE_MEMORY_TYPE 
  在 HIP (Heterogeneous-compute Interface for Portability) 中，hipPointerGetAttributes API 用于获取指针的属性，包括内存类型。这个功能在确定指针是分配在设备内存还是主机内存时非常有用。 
  #include 
#include 

int main() {
    // 分配设备内存
    double *ptr;
    hipMalloc(reinterpret_cast(&ptr), sizeof(double));

    // 获取设备指针的属性
    hipPointerAttribute_t attr;
    hipPointerGetAttributes(&attr, ptr);
    if (attr.memoryType == hipMemoryTypeDevice) {
        std::cout << "ptr is allocated on device memory." << std::endl;
    } else {
        std::cout << "ptr is not allocated on device memory." << std::endl;
    }

    // 分配主机内存
    double* ptrHost;
    hipHostMalloc(&ptrHost, sizeof(double));

    // 获取主机指针的属性
    hipPointerGetAttributes(&attr, ptrHost);
    if (attr.memoryType == hipMemoryTypeHost) {
        std::cout << "ptrHost is allocated on host memory." << std::endl;
    } else {
        std::cout << "ptrHost is not allocated on host memory." << std::endl;
    }

    // 清理资源
    hipFree(ptr);
    hipFreeHost(ptrHost);

    return 0;
} 
  3.  threadfence_system 
  在 CUDA 和一些其他并行计算环境中，__threadfence_system() 函数用于确保当前线程发出的所有全局内存写入操作在所有设备上都可见。这包括对映射的主机内存和对等内存（peer memory）的写入。这个函数通常用于同步操作，确保在继续执行后续操作之前，所有先前的写入都已经完成。 
  然而，在 HIP (Heterogeneous-compute Interface for Portability) 中，并没有直接提供与 CUDA 中 __threadfence_system() 相同的功能。HIP 设计为与多种后端兼容，包括 AMD 的 ROCm 平台和 NVIDIA 的 CUDA 平台，因此它可能不包括特定于某一平台的同步机制。 
  由于 HIP 不直接提供 threadfence_system 功能，用户可以采取以下替代措施： 
   
    设置环境变量： 
     
     可以通过设置环境变量 HSA_DISABLE_CACHE=1 来禁用 GPU L2 缓存。这将影响所有访问和所有内核，可能会对性能产生影响。 
     这种方法是一种全局设置，可能会对整个应用程序的性能产生负面影响，因为它改变了 GPU 缓存的行为。 
     
    使用其他同步机制： 
     
     在 HIP 中，可以使用其他同步原语，如 hipDeviceSynchronize() 或 hipStreamSynchronize()，来确保内存操作的可见性和顺序。 
     这些函数可以确保所有先前的设备工作都已经完成，从而在一定程度上模拟 threadfence_system 的行为。 
     
   
  以下是使用 hipDeviceSynchronize() 来确保设备内存写入对 CPU 可见的示例： 
  #include 

__global__ void kernel() {
    // 执行一些内存写入操作
}

int main() {
    hipLaunchKernel(kernel, dim3(1), dim3(1), 0, 0);
    hipDeviceSynchronize(); // 等待设备完成所有先前排队的工作
    return 0;
} 
  4. Textures and Cache Control 
  在 GPU 编程中，纹理（texture）通常用于两种目的：利用专用的纹理缓存来加速内存访问，或者使用纹理采样硬件来进行插值和边界处理。这些用途在不同的硬件架构上可能会有不同的表现和优化方式。 
  纹理缓存与纹理采样硬件 
   
    纹理缓存：一些程序使用纹理来访问专用的纹理缓存，这可以通过简单的点采样器实现，基本上只读取一个点的数据。
  
    纹理采样硬件：另一些程序则利用采样器硬件来进行插值和合并多个样本，这通常用于需要高级纹理处理功能的情况。
  
   
  AMD 硬件与纹理缓存 
   
   AMD 的硬件以及一些竞争对手的较新硬件通常具有统一的纹理/L1 缓存，这意味着它们不再拥有专用的纹理缓存。 
   
  NVIDIA 硬件与纹理缓存 
   
   NVIDIA 的硬件（通过 nvcc 路径编译的 CUDA 程序）通常将全局加载的数据缓存到 L2 缓存中，这可能使得一些程序能够从显式控制 L1 缓存内容中受益。 
   
  __ldg 指令 
   
   __ldg 指令（Load Global）在 CUDA 中用于显式地从全局内存中加载数据，并且可以用于控制 L1 缓存的内容。在 AMD 硬件上，由于所有数据已经同时加载到 L1 和 L2 缓存中，__ldg 指令实际上被视为无操作（no-op）。 
   
  HIP 中的纹理和 __ldg 指令 
   
   对于只需要从改进的缓存中受益的程序，建议使用 __ldg 指令。 
   使用纹理对象和引用 API 的程序在 HIP 上表现良好，因为 HIP 支持这些功能。 
   
  功能性可移植性建议 
   
   对于只需要利用纹理来改善缓存的程序，可以使用 __ldg 指令，尽管在 AMD 硬件上它可能不会提供额外的性能优势。 
   对于使用纹理对象和引用 API 的程序，可以直接在 HIP 上运行，因为 HIP 提供了对这些特性的支持。 
   
  在 HIP 中使用 __ldg 指令的示例： 
  #include 

__global__ void kernel(float *data, int size) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < size) {
        float value = __ldg(data + idx);
        // 进行一些操作
    }
}

int main() {
    float *data, *d_data;
    hipMalloc(&d_data, sizeof(float) * SIZE);
    // 假设 data 已经初始化
    hipMemcpy(d_data, data, sizeof(float) * SIZE, hipMemcpyHostToDevice);
    
    hipLaunchKernel(kernel, dim3(1, 1, 1), dim3(256, 1, 1), 0, 0, d_data, SIZE);
    
    hipFree(d_data);
    return 0;
} 
  二、More Tips 
  1. HIP Logging 
  HIP (Heterogeneous-compute Interface for Portability) 提供了日志记录功能，可以帮助开发者调试和分析 HIP 应用程序的执行情况。在 AMD 平台上，您可以通过设置环境变量 AMD_LOG_LEVEL 来控制日志记录的详细程度。 
  AMD_LOG_LEVEL 环境变量用于指定日志记录的级别，它支持不同的日志级别，每个级别对应不同的信息详细程度。以下是一些常用的日志级别： 
   
   0：关闭日志记录。 
   1：仅记录错误信息。 
   2：记录错误信息和警告信息。 
   3：记录错误、警告以及一些额外的调试信息。 
   4：记录详细的调试信息，包括函数调用、参数值等。 
   
  如何设置 AMD_LOG_LEVEL 
  您可以通过在命令行中设置环境变量或在程序中设置环境变量来控制日志级别。以下是两种设置方法： 
   
    在命令行中设置： 
     
     在 Linux 或 macOS 上，您可以在终端中使用以下命令： export AMD_LOG_LEVEL=3
  
     在 Windows 上，您可以在命令提示符或 PowerShell 中使用以下命令： set AMD_LOG_LEVEL=3
  
     
    在程序中设置： 
     
     您可以在程序启动时设置环境变量，例如在 C++ 程序中： #include 
#include 
#include 

int main() {
    // 设置日志级别
    setenv("AMD_LOG_LEVEL", "3", 1);

    // 您的 HIP 程序代码
    hipInit(0);
    // ...
    hipDeviceReset();
    return 0;
}
  
     
   
  查看 HIP 日志 
  设置好 AMD_LOG_LEVEL 后，当您运行 HIP 应用程序时，日志信息将根据指定的级别输出到标准输出或指定的日志文件中。您可以在应用程序的输出中查看这些日志信息，以便进行调试和分析。 
  注意事项 
   
   日志记录可能会影响应用程序的性能，尤其是在较高的日志级别时，因为它会增加额外的输出操作。 
   确保在发布版本中关闭或减少日志记录的详细程度，以避免性能损失和不必要的信息泄露。 
   
  2. Debugging hipcc 
  在使用 HIP (Heterogeneous-compute Interface for Portability) 编译器 hipcc 进行编译时，如果需要查看 hipcc 产生的详细命令，可以通过设置环境变量 HIPCC_VERBOSE 来实现。这个环境变量的设置会让 hipcc 在标准错误输出（stderr）中打印出它生成的 HIP-clang（或 nvcc）命令。 
  您可以在命令行中设置 HIPCC_VERBOSE 环境变量，或者在程序中设置。以下是两种设置方法： 
   
    在命令行中设置： 
     
     在 Linux、macOS 或 Windows 的命令提示符（CMD）中，您可以设置环境变量： export HIPCC_VERBOSE=1
  
     在 Windows 的 PowerShell 中，您可以设置环境变量： $env:HIPCC_VERBOSE="1"
  
     
    在程序中设置： 
     
     您可以在 C++ 程序中使用 setenv 函数来设置环境变量： #include 

int main() {
    // 设置 HIPCC_VERBOSE 环境变量
    setenv("HIPCC_VERBOSE", "1", 1);

    // 您的 HIP 程序代码
    // ...

    return 0;
}
  
     
   
  查看编译命令 
  设置 HIPCC_VERBOSE 环境变量后，当您运行 hipcc 编译命令时，它将在标准错误输出中打印出详细的编译命令。这对于调试编译过程中的问题非常有用，因为它可以帮助您了解 hipcc 背后的实际编译过程。 
  示例 
  假设您有一个简单的 HIP 程序 example.cpp，您可以这样编译它： 
  hipcc example.cpp -o example 
  在设置了 HIPCC_VERBOSE 环境变量后，您会看到类似以下的输出： 
  # 例如，输出可能包括：
hipcc: executing HIP-clang command: hipcc -ccbin /usr/bin/clang -x hip --cuda -fcuda-rdc -o example.cpp.o -c example.cpp
hipcc: executing HIP-clang command: hipcc -ccbin /usr/bin/clang -o example example.cpp.o 
  这些输出显示了 hipcc 调用的实际编译器命令，包括所有的选项和参数。 
  注意事项 
   
   设置 HIPCC_VERBOSE 可能会产生大量的输出，因此建议仅在需要调试时使用。 
   确保在调试完成后，如果不需要详细输出，可以取消设置该环境变量或将其值设置回 0。 
   
  3. Editor Highlighting 
  为了在文本编辑器中获得 HIP (Heterogeneous-compute Interface for Portability) 文件的语法高亮，通常需要安装或配置相应的语法高亮插件或模式。许多流行的编辑器，如 Vim 和 Gedit，允许用户添加自定义的语法高亮规则来支持特定语言或框架。 
  Vim 
  对于 Vim 编辑器，您可以在 utils/vim 目录中找到 HIP 的语法高亮文件。通常，这个文件会被命名为 hip.vim，并且您可以通过以下步骤将其集成到 Vim 中： 
   
    将 hip.vim 文件复制到您的 Vim 配置目录下的 syntax 子目录中。在 Linux 系统上，这通常是 ~/.vim/syntax/。
  
    如果 Vim 找不到该文件，您可能需要创建 syntax 目录：
 mkdir -p ~/.vim/syntax
  
    复制文件：
 cp utils/vim/hip.vim ~/.vim/syntax/
  
    为了让 Vim 知道如何使用这个新语法文件，您可能需要在 ~/.vimrc 文件中添加以下行：
 autocmd BufRead,BufNewFile *.hip set filetype=hip
  
    重新启动 Vim 并打开一个 .hip 文件，您应该能够看到语法高亮效果。
  
   
  Gedit 
  对于 Gedit 编辑器，您可以在 utils/gedit 目录中找到 HIP 的语法高亮文件。这个文件可能是一个 .gedit-syntax 文件，并且您可以通过以下步骤将其添加到 Gedit： 
   
    将 .gedit-syntax 文件复制到 Gedit 的语法文件目录中。这通常是 ~/.local/share/gedit/syntaxes/。
  
    如果 Gedit 语法文件目录不存在，您需要创建它：
 mkdir -p ~/.local/share/gedit/syntaxes
  
    复制文件：
 cp utils/gedit/hip.gedit-syntax ~/.local/share/gedit/syntaxes/
  
    重新启动 Gedit。您可能需要刷新 Gedit 的插件或重启计算机，以便 Gedit 识别新的语法文件。
  
    打开一个 .hip 文件，然后在 Gedit 的“Preferences”菜单中选择“Editor” > “Highlighting and Bracketing”，并为您的文件类型选择正确的语法高亮。
  
   
  注意事项 
   
   确保您复制的语法高亮文件与您的编辑器版本和配置兼容。 
   如果您在编辑器中没有看到预期的语法高亮效果，请检查您的文件扩展名是否正确，以及是否在编辑器的设置中启用了语法高亮。 
   一些编辑器可能需要额外的插件或工具来支持自定义语法高亮。 
   
  三、HIP Porting Driver API 
  1. Porting CUDA Driver API 
  在将 CUDA 代码移植到 HIP 时，需要注意 CUDA 提供了两套 API：CUDA Driver API 和 CUDA Runtime API。这两套 API 在功能上有显著的重叠，但也存在一些差异。以下是一些关键点，以及如何将 CUDA Driver API 移植到 HIP： 
  CUDA Driver API 与 Runtime API 的重叠功能 
   
   事件（Events）：cuEventCreate (Driver API) 和 cudaEventCreate (Runtime API) 
   流（Streams）：cuStreamCreate (Driver API) 和 cudaStreamCreate (Runtime API) 
   内存管理：cuMemAlloc (Driver API) 和 cudaMalloc (Runtime API) 
   内存复制：cuMemcpy (Driver API) 和 cudaMemcpy (Runtime API) 
   错误处理：cuGetErrorString (Driver API) 和 cudaGetErrorString (Runtime API) 
   
  CUDA Driver API 的独特功能 
   
   模块加载：cuModuleLoad (Driver API)，用于加载 CUDA 模块，没有直接的 Runtime API 等价物。 
   上下文管理：cuCtx 系列函数 (Driver API)，用于管理 CUDA 上下文，而 Runtime API 中没有直接的等价物。 
   
  错误代码和编码约定 
   
   CUDA Driver API 和 Runtime API 使用不同的错误代码空间和编码约定。例如，Driver API 使用 CUDA_ERROR_INVALID_VALUE，而 Runtime API 使用 cudaErrorInvalidValue。 
   
  移植 CUDA Driver API 到 HIP 
  在 HIP 中，大多数 CUDA Runtime API 都有直接的对应项，但 HIP 目前不支持与 CUDA Driver API 相同的模块加载和上下文管理功能。因此，移植 CUDA Driver API 到 HIP 时，您可能需要进行以下调整： 
   
    替换 API 调用：将 CUDA Driver API 调用替换为 HIP 运行时 API 调用。例如，将 cuEventCreate 替换为 hipEventCreate。
  
    调整错误处理：将 CUDA Driver API 的错误代码替换为 HIP 的错误代码。HIP 错误代码通常与 CUDA Runtime API 的错误代码相似，但可能有所不同。
  
    移除或替换模块和上下文管理：如果您的代码使用了 cuModule 或 cuCtx 系列函数，您可能需要重构代码以避免使用这些功能，或者寻找 HIP 提供的替代方案。
  
    使用 HIP 提供的替代功能：对于 CUDA Driver API 中不直接由 HIP 支持的功能，您可能需要使用 HIP 提供的其他功能来实现类似的结果。
  
   
  以下是将 CUDA Driver API 移植到 HIP 的示例： 
  // CUDA Driver API
// cuEvent_t event;
// cuEventCreate(&event, 0);

// HIP Runtime API
hipEvent_t event;
hipEventCreate(&event, 0); 
  2. cuModule API 
  在 CUDA 编程中，有两种 API（应用程序编程接口）可以用来与 GPU 交互： 
   
    CUDA Runtime API： 
     
     这是最常用的 API，它提供了一组函数，可以用来分配内存、创建执行流（streams）、同步操作等。 
     当你使用 Runtime API 时，所有的 CUDA 内核（kernels）都是自动编译并加载的。这意味着当你的程序运行时，它会包含所有的内核代码，并且 CUDA 运行时会自动处理加载这些内核的细节。 
     例如，如果你有一个名为 myKernel 的 CUDA 内核，你可以直接使用 <<< >>> 语法来启动它，这是 CUDA Runtime API 提供的一种快捷方式。 
     
    CUDA Driver API： 
     
     这是一个更底层的 API，它提供了更多的控制，比如可以显式地加载和卸载 CUDA 内核。 
     这个 API 允许你从文件或内存中加载 CUDA 模块（类似于动态链接库），并且可以从这些模块中提取内核函数。 
     例如，如果你有一个编译好的 CUDA 模块文件（.mycu），你可以使用 Driver API 来加载这个模块，然后获取模块中的特定内核函数并执行它。 
     
   
  在 HIP 中，也有类似的功能，但是它们是分开的： 
   
    HIP Runtime API： 
     
     与 CUDA Runtime API 类似，它提供了一组函数来执行 GPU 操作。 
     
    HIP Module API： 
     
     这是 HIP 提供的类似于 CUDA Driver API 的功能，它允许你加载和控制 CUDA 模块。 
     
   
  当你需要更细粒度的控制，比如只加载特定的内核或者在运行时生成内核代码时，使用 HIP Module API 就非常有用。这在一些高级用例中很有帮助，比如当你使用一种新的加速器语言或者有特殊的编译流程时。 
  总结一下，如果你的程序只需要使用标准的 CUDA 内核，并且你不需要对加载过程进行特别的控制，那么使用 HIP Runtime API 就足够了。但如果你有更复杂的需求，比如需要动态加载内核或者处理特殊的模块，那么你可能需要使用 HIP Module API。 
  以下是如何在 HIP 中使用模块 API 的示例： 
  #include 

int main() {
    hipModule_t module;
    hipFunction_t kernel;
    void* kernelArgs[] = {&arg1, &arg2};
    size_t numArgs = sizeof(kernelArgs) / sizeof(void*);

    // 加载模块
    hipModuleLoad(&module, "kernel.hip");

    // 获取内核函数
    hipModuleGetFunction(&kernel, module, "kernel_name");

    // 启动内核
    hipModuleLaunchKernel(kernel, gridDimX, gridDimY, gridDimZ, blockDimX, blockDimY, blockDimZ, 0, 0, kernelArgs, nullptr);

    // 卸载模块
    hipModuleUnload(module);

    return 0;
} 
  在这个示例中，hipModuleLoad 用于加载代码对象，hipModuleGetFunction 用于获取内核函数，hipModuleLaunchKernel 用于启动内核，最后 hipModuleUnload 用于卸载模块。 
  3. cuCtx API 
  CUDA Driver API 
  在 CUDA Driver API 中，有两个重要的概念：设备（Device）和上下文（Context）。 
   
   设备（Device）：就像你的电脑里的 GPU 硬件。每个设备都有一个编号，比如设备 0、设备 1 等。 
   上下文（Context）：可以把它想象成一个工作环境，这个环境是针对一个特定设备的。在这个环境中，你可以创建和管理与那个设备相关的任务，比如运行内核（Kernel）或数据传输。 
   
  在 CUDA Driver API 中，你可以为每个设备创建一个上下文，然后在这个上下文中做很多事情，比如启动内核或创建事件（Event）。这种方式给你很多控制权，但也稍微复杂一些。 
  CUDA Runtime API 
  CUDA Runtime API 简化了这个过程。它没有明确区分上下文和设备，而是让你直接在设备上工作。你不需要创建上下文，而是直接告诉 CUDA 你想在哪个设备上工作。 
  HIP 
  HIP 是为了在不同的硬件平台上（比如 NVIDIA 的 GPU 和 AMD 的 GPU）都能运行而设计的。它在很多方面模仿了 CUDA Runtime API 的简化方式。 
   
   hipSetDevice：这个函数让你选择一个设备来工作，就像 CUDA Runtime API 中的选择设备一样。 
   流（Streams）：在 HIP 中，你可以创建流来管理设备上的任务。流允许你同时运行多个任务，提高了效率。 
   
  为什么上下文（Context）变得不那么重要了？ 
  随着技术的发展，大多数情况下，你不需要创建和管理多个上下文。你只需要选择一个设备，然后直接在这个设备上运行你的代码。这就是为什么 HIP 和最新的 CUDA 版本都推荐使用更简单的方法来选择和使用设备。 
  总结 
   
   在 CUDA Driver API 中，你可以为每个 GPU 创建一个上下文，这给了你很多控制权，但也更复杂。 
   CUDA Runtime API 和 HIP 简化了这个过程，让你直接在设备上工作，不需要创建上下文。 
   HIP 提供了一些与 CUDA Driver API 相似的函数来帮助移植代码，但这些函数被认为是过时的，因为它们不符合简化的编程模型。 
   
  示例 
  在 CUDA Driver API 中，您可以这样创建和管理上下文： 
  CUcontext context;
CUdevice device;
cuDeviceGet(&device, 0); // 获取第一个设备
cuCtxCreate(&context, 0, device); // 创建上下文 
  在 HIP 中，您可以使用 hipSetDevice 来选择设备： 
  hipSetDevice(0); // 选择第一个设备 
  注意事项 
   
   在移植 CUDA Driver API 代码到 HIP 时，您可能需要调整与上下文相关的代码，因为 HIP 使用不同的机制来管理设备。 
   如果您的应用程序需要在多个 GPU 之间切换，您应该使用 HIP 提供的 hipSetDevice 或流 API。 
   由于 HIP 中的 hipCtx API 已被标记为弃用，建议避免在新代码中使用这些 API。 
   
  4. HIP Module and Ctx APIs 
  在 HIP (Heterogeneous-compute Interface for Portability) 中，为了提供一个统一的编程模型并简化开发过程，而不是提供两个独立的 API 集，HIP 通过引入新的模块（Modules）和上下文（Ctx）控制 API 来扩展其功能。这样做的目的是为了让 HIP 更容易从 CUDA 代码移植，同时保持 API 的一致性和简洁性。 
  模块（Module）API 
  在 CUDA 和 HIP 中，模块 API 允许你加载已经编译好的 GPU 代码。这些代码通常是由专门的编译器（比如 NVCC 或 HIP-Clang）生成的，并且存储在文件中。你可以把这些代码想象成 GPU 可以执行的程序。 
   
   NVCC 生成的代码通常有两种格式：.cubin 或 .ptx。 
   HIP-Clang 生成的代码格式为 .hsaco。 
   
  HIP 提供了 hipModuleLoad 这样的函数，让你可以从这些文件中加载代码到 GPU 中。这就像是在电脑上安装一个程序，一旦安装好了，你就可以运行它了。 
  上下文（Ctx）API 
  上下文 API 允许你管理 GPU 的工作环境。你可以把它想象成不同的工作区，每个工作区都可以有它自己的设置和任务。 
   
   在 CUDA 的早期版本中，每个 GPU 设备可以有多个这样的工作区，但 HIP 简化了这个过程，使得每个设备通常只有一个工作区。 
   
  为什么使用模块和上下文 API 
   
   模块 API：当你想要加载一些特别的或者在运行时生成的 GPU 代码时，这个 API 很有用。比如，你可能有一个程序，它可以根据用户的输入动态生成 GPU 代码，然后你需要加载这些代码来执行。 
   上下文 API：当你的程序需要在多个 GPU 之间切换，或者你需要更精细地控制 GPU 的运行环境时，这个 API 很有用。 
   
  示例 
  以下是使用 hipModule API 加载和使用代码对象的示例： 
  hipModule_t module;
hipFunction_t function;
void* kernelParams[] = {&arg1, &arg2};
size_t numParams = sizeof(kernelParams) / sizeof(void*);

// 加载模块
hipModuleLoad(&module, "kernel.hsaco");

// 获取模块中的函数
hipModuleGetFunction(&function, module, "kernel_func");

// 启动内核
hipModuleLaunchKernel(function, gridDimX, gridDimY, gridDimZ, blockDimX, blockDimY, blockDimZ, 0, 0, kernelParams, nullptr);

// 卸载模块
hipModuleUnload(module); 
  5. hipCtx API 
  HIP 的 hipCtx API 提供了一种管理 GPU 上下文（context）的方法。在 HIP 中，上下文是一个抽象概念，它代表了与特定 GPU 设备相关的执行环境。这个 API 作为现有设备函数的一层薄封装，允许你设置当前的上下文或者查询与上下文相关联的设备属性。 
  hipCtx API 的主要功能包括： 
   
    设置当前上下文：你可以使用 hipCtx API 来指定你的应用程序当前应该使用的 GPU 上下文。这会影响到随后的 HIP 调用，因为它们会在这个当前上下文中执行。
  
    查询设备属性：你可以查询与特定上下文相关联的 GPU 设备的属性，比如设备名称、计算能力、内存大小等。
  
    与现有 HIP API 的集成：hipCtx API 与 HIP 的其他 API 紧密集成。例如，当你创建一个流（stream）时，如果没有明确指定上下文，HIP 会使用当前上下文来创建流。
  
   
  使用 hipCtx API 的示例： 
  hipCtx_t ctx;
hipDevice_t device;

// 获取设备
hipDeviceGet(&device, 0);

// 创建上下文
hipCtxCreate(&ctx, 0, device);

// 设置当前上下文
hipCtxSetCurrent(ctx);

// 在当前上下文中创建一个流
hipStream_t stream;
hipStreamCreate(&stream);

// ... 执行一些操作 ...

// 销毁流
hipStreamDestroy(stream);

// 卸载当前上下文
hipCtxDestroy(ctx); 
  在这个示例中，我们首先获取了一个设备，然后创建了一个上下文。通过调用 hipCtxSetCurrent，我们设置了当前的上下文。这意味着任何后续的 HIP 调用都会在这个上下文中执行。我们还展示了如何在当前上下文中创建一个流，并在完成后销毁流和上下文。 
  注意事项： 
   
   上下文管理：在多设备环境中，正确管理上下文是很重要的。确保在适当的时间创建和销毁上下文，以避免资源泄漏。 
   性能考虑：虽然 hipCtx API 提供了额外的控制，但频繁地切换上下文可能会影响应用程序的性能。因此，合理规划上下文的使用是必要的。 
   API 弃用：在 HIP 的某些版本中，hipCtx API 可能被标记为弃用。这意味着 HIP 开发者推荐使用其他机制（如 hipSetDevice）来管理设备。在编写新的应用程序时，应考虑这一点。 
   
  总的来说，hipCtx API 提供了一种灵活的方式来管理 GPU 上下文，使得在多设备环境中的编程变得更加方便。然而，它也要求开发者对上下文的生命周期和使用有清晰的理解。 
  6. hipify translation of CUDA Driver API 
  hipify 是一个工具，它可以帮助开发者将 CUDA 代码转换为 HIP 代码。这个工具主要针对 CUDA Driver API，将其转换为 HIP 的等效调用。这种转换对于希望在 AMD GPU 上运行原有 CUDA 应用程序的开发者来说非常有用。以下是 hipify 工具处理的一些关键方面： 
  转换 CUDA Driver API 到 HIP 
   
   流（Streams）：cuStreamCreate 转换为 hipStreamCreate 
   事件（Events）：cuEventCreate 转换为 hipEventCreate 
   模块（Modules）：cuModuleLoad 转换为 hipModuleLoad 
   设备（Devices）：cuDeviceGet 转换为 hipDeviceGet 
   内存管理：cuMemAlloc 转换为 hipMemAlloc 
   上下文（Context）：cuCtxCreate 转换为 hipCtxCreate 
   性能分析（Profiler）：cuProfilerStart 转换为 hipProfilerStart 
   
  错误代码转换 
   
   hipify 工具还会将 CUDA Driver API 的错误代码转换为 HIP 的错误代码。例如，CUDA 中的 CUDA_ERROR_INVALID_VALUE 转换为 HIP 中的 hipErrorInvalidValue。 
   
  内存复制 API 
   
   CUDA Driver API 在内存复制函数的名称中包含了内存传输方向（例如，cuMemcpyH2D 表示从主机到设备）。 
   HIP 提供了两种风格的内存复制 API： 
     
     与 CUDA 类似的，包含方向的函数，如 hipMemcpyH2D。 
     单一的内存复制函数 hipMemcpy，它通过参数指定方向，并支持“默认”方向，让运行时自动确定方向。 
     
   
  性能考虑 
   
   使用明确指定内存方向的 API（如 hipMemcpyH2D）可能在某些情况下比使用单一函数（如 hipMemcpy）更快，因为它避免了主机开销来检测不同的内存方向。 
   
  错误处理 
   
   HIP 定义了一个统一的错误代码空间，并使用驼峰命名法（camel-case）为所有错误命名（例如 hipErrorInvalidValue）。 
   
  使用 hipify 
  要使用 hipify 工具，你通常需要在命令行中运行它，并指定要转换的 CUDA 源文件。hipify 会生成新的 HIP 源文件，你可以编译这些文件来在支持 HIP 的平台上运行。 
  hipify-perl your_cuda_file.cu -o your_hip_file.cpp 
  这个命令会将 your_cuda_file.cu 转换为 your_hip_file.cpp。 
  注意事项 
   
   hipify 工具可能无法处理所有的 CUDA 代码，特别是那些使用了 CUDA 特定功能或第三方库的代码。在这种情况下，可能需要手动进行一些修改。 
   转换后的代码可能需要进一步的调整和优化，以确保在新平台上的最佳性能。 
   
  四、HIP-Clang Implementation Notes 
  1. .hip_fatbin 
  在 HIP (Heterogeneous-compute Interface for Portability) 编程环境中，.hip_fatbin 是一种特殊的二进制格式，它允许将针对不同 GPU 架构的设备代码组合到一个单一的可执行文件或共享对象中。这种格式的主要目的是为了简化跨不同 GPU 架构的应用程序的部署和分发。 
  如何生成 .hip_fatbin 
   
    编译设备代码：当你使用 hip-clang 编译器编译 HIP 代码时，它会为每个目标设备生成一个代码对象（例如，.hsaco 文件）。
  
    捆绑代码对象：clang-offload-bundler 工具会将这些针对不同设备的代码对象捆绑到一起，形成一个所谓的“fat binary”。
  
    嵌入到可执行文件：这个 fat binary 会被嵌入到可执行文件或共享对象的 .hip_fatbin 节中，作为一个全局符号 __hfip_fatbin。
  
   
  .hip_fatbin 的优点 
   
   简化部署：开发者不需要为每个目标设备提供单独的二进制文件。用户可以在支持的任何设备上运行同一个可执行文件，因为所需的设备代码已经包含在内。 
   易于分发：分发包含 .hip_fatbin 的应用程序更加方便，因为只需要一个包含所有目标设备代码的二进制文件。 
   自动选择：在运行时，HIP 运行时环境会自动选择与当前设备相匹配的代码对象进行加载和执行。 
   
  示例 
  假设你有两个 HIP 内核，分别针对不同的 GPU 架构。你可以使用 hip-clang 编译它们，并使用 clang-offload-bundler 将它们捆绑到一个 fat binary 中： 
  hip-clang -c -o kernel1.hsaco kernel1.cpp --offload-arch=gfx803
hip-clang -c -o kernel2.hsaco kernel2.cpp --offload-arch=gfx900
clang-offload-bundler -type=o -targets=hip-amd-gfx803-amdgcn--hip-amd-gfx900-amdgcn -inputs=kernel1.hsaco,kernel2.hsaco -outputs=kernels.hip_fatbin 
  然后，你可以将这个 .hip_fatbin 文件链接到你的应用程序中： 
  hip-clang -o my_application my_application.cpp -L. -lkernels 
  在这个例子中，-lkernels 选项告诉编译器链接 .hip_fatbin 文件，其中 -l 前缀表示这是一个库文件，而 kernels 是 .hip_fatbin 文件的名称。 
  2. Initialization and Termination Functions 
  在 HIP (Heterogeneous-compute Interface for Portability) 编程中，当你使用 HIP-Clang 编译主机代码时，它会为每个翻译单元生成初始化和终止函数。这些函数负责设置和清理与 GPU 相关的资源。以下是这些函数的作用和它们如何工作的详细说明： 
  初始化函数 
   
    __hipRegisterFatBinary：这个函数用于注册嵌入到 ELF 文件中的 .hip_fatbin 节的 fat binary。这是必要的，因为 fat binary 包含了针对不同 GPU 架构的设备代码。
  
    __hipRegisterFunction：这个函数用于注册设备上的内核函数，使得它们可以被主机代码调用。
  
    __hipRegisterVar：这个函数用于注册设备端的全局变量，使得它们可以在主机代码和设备代码之间共享。
  
   
  终止函数 
   
   __hipUnregisterFatBinary：这个函数用于注销在程序开始时注册的 fat binary。这通常在程序结束时或在设备代码不再需要时调用。 
   
  全局变量 __hfip_gpubin_handle 
   
   HIP-Clang 为每个主机翻译单元生成一个名为 __hfip_gpubin_handle 的全局变量。这个变量的类型是 void**，并且它的链接属性被设置为 linkonce，这意味着在最终的二进制文件中，只会有一个这样的变量。 
   
  确保只注册一次 
   
    每个初始化函数都会检查 __hfip_gpubin_handle 的值。如果它是 0，这意味着 fat binary 还没有被注册，那么初始化函数会调用 __hipRegisterFatBinary 来注册 fat binary，并将返回值保存到 __hfip_gpubin_handle 中。这样做是为了保证 fat binary 只被注册一次。
  
    类似地，终止函数也会检查 __hfip_gpubin_handle 的值，并在适当的时候调用 __hipUnregisterFatBinary 来注销 fat binary。
  
   
  示例 
  这是一个简化的示例，展示了初始化和终止函数可能如何工作： 
  // 全局变量，用于检查是否已经注册了 fat binary
void* __hip_gpubin_handle = nullptr;

// 初始化函数
__attribute__((constructor))
void hipInit() {
    if (__hip_gpubin_handle == nullptr) {
        __hip_gpubin_handle = __hipRegisterFatBinary(&__hip_fatbin);
        // 注册内核函数和设备全局变量
        __hipRegisterFunction(&myKernel, ...); // 省略了参数
        __hipRegisterVar(&myDeviceVar, ...);  // 省略了参数
    }
}

// 终止函数
__attribute__((destructor))
void hipFini() {
    if (__hip_gpubin_handle != nullptr) {
        __hipUnregisterFatBinary(__hip_gpubin_handle);
        __hip_gpubin_handle = nullptr;
    }
} 
  在这个示例中，hipInit 函数是一个构造函数，它在程序启动时自动调用。它检查 __hfip_gpubin_handle 是否为 nullptr，如果是，则注册 fat binary。hipFini 函数是一个析构函数，它在程序结束时自动调用，用于注销 fat binary。 
  注意事项 
   
   这些初始化和终止函数是由 HIP-Clang 自动生成的，你通常不需要手动编写它们。 
   确保你的程序在适当的时机调用这些函数，以避免资源泄漏或未定义行为。 
   
  3. Kernel Launching 
  在 HIP-Clang 中，内核启动可以通过以下几种方式： 
   
   使用 CUDA 风格的三连字符语法 <<< >>>，这是最直接的方法，但在 HIP 中通常不推荐使用。 
   使用 hipLaunchKernel 宏，这是一个可变参数宏，可以接受启动配置（如网格维度、块维度、流、动态共享内存大小）和内核参数。这个宏会根据平台展开成适当的内核启动语法。 
   使用 hipLaunchKernelGGL 宏，这是 hipLaunchKernel 的一个变体，提供了一种标准 C/C++ 宏的方式来启动内核，可以作为 <<< >>> 语法的替代。 
   
  当使用 hipLaunchKernel 或 hipLaunchKernelGGL 宏时，需要提供内核名称、网格维度、块维度、动态共享内存大小和流等参数，然后是内核参数。这些宏的使用有助于代码的可移植性，并且可以在不同的 GPU 架构上运行。 
  此外，HIP-Clang 还提供了一些内置变量和函数，如 hipThreadIdx_x、hipBlockIdx_x、hipBlockDim_x、hipGridDim_x 等，这些与 CUDA 中的相应变量类似，用于在内核中确定线程的位置。 
  在迁移 CUDA 代码到 HIP 平台时，可以使用 hipify 工具自动转换大部分代码。这个工具可以处理许多常见的 CUDA 模式，但可能需要手动调整一些特定的架构特性查询或 HIP 不支持的 CUDA 功能。 
  4. Address Spaces 
  HIP-Clang 定义了一个进程范围的地址空间，其中 CPU 和所有设备都从一个统一的地址池中分配地址。因此，地址可以在不同上下文中共享，与原始 CUDA 定义不同，新的上下文不会为设备创建新的地址空间。这意味着在 HIP-Clang 中，内存管理是统一的，允许在 CPU 和 GPU 之间更容易地共享数据，而不需要在它们之间复制数据。 
  5. Using hipModuleLaunchKernel 
  在 HIP 中，hipModuleLaunchKernel 函数是与 CUDA 中的 cuLaunchKernel 相对应的函数。它用于启动内核执行，并且接受与 cuLaunchKernel 相同的参数。这些参数包括内核的执行配置，如网格维度、块维度、动态共享内存大小、流以及内核参数。 
  hipModuleLaunchKernel 的使用方式如下： 
  hipFunction_t function; // 已获取的内核函数指针
dim3 gridDim;          // 网格维度
dim3 blockDim;         // 块维度
size_t sharedMemBytes; // 动态共享内存大小
hipStream_t stream;    // 流

// 内核参数
void* kernelParams[] = {
    &arg1,
    &arg2,
    // ...
};

// 启动内核
hipModuleLaunchKernel(function, gridDim.x, gridDim.y, gridDim.z, blockDim.x, blockDim.y, blockDim.z, sharedMemBytes, stream, kernelParams, 0); 
  6. Additional Information 
  在使用 HIP-Clang 编译 HIP 程序时，它会在调用 HIP API 时创建一个主上下文（primary context）。这个主上下文是 HIP-Clang 用来管理 GPU 设备资源和执行操作的上下文环境。在纯粹的驱动 API 代码中，这意味着当没有其他上下文存在时，HIP-Clang 会自动创建并使用这个主上下文。 
  与此相对的是，使用 HIP/NVCC（NVIDIA 的 CUDA 编译器）时，如果没有明确创建上下文，那么上下文栈将为空。在这种情况下，开发者需要手动创建和管理 CUDA 上下文。 
  当使用 HIP-Clang 时，如果上下文栈为空，HIP-Clang 会将主上下文推入上下文栈中。这样做的目的是为了确保在执行 HIP API 调用时有一个有效的上下文环境。这种自动管理上下文的行为可能会导致在使用运行时 API 和驱动 API 混合编程时出现微妙的差异，因为上下文的创建和销毁可能不会完全按照开发者的预期进行。 
  例如，如果开发者在代码中混合使用了 HIP 运行时 API 和驱动 API，那么在某些情况下，HIP-Clang 可能会自动创建和销毁上下文，而开发者可能并不期望这种行为。这可能会影响程序的性能，因为上下文的创建和销毁是一个相对昂贵的操作。 
  因此，在使用 HIP-Clang 进行编程时，了解上下文是如何被创建和管理的是很重要的。这有助于开发者更好地控制程序的行为，尤其是在涉及到跨多个 GPU 设备和上下文进行操作时。如果需要更精细的控制，开发者可以使用 HIP 的上下文管理 API 来显式地创建、设置和销毁上下文，以确保程序的行为符合预期。 
  五、NVCC Implementation Notes 
  1. Interoperation between HIP and CUDA Driver 
  CUDA 应用程序可能希望将 CUDA 驱动代码与 HIP 代码混合使用。下表显示了类型等价性，以实现这种交互。 
   
  2. Compilation Options 
  hipModule_t 接口不支持 cuModuleLoadDataEx 函数，该函数用于控制 PTX 编译选项。HIP-Clang 不使用 PTX，也不支持这些编译选项。HIP-Clang 的代码对象总是包含完全编译好的 ISA，不需要在加载步骤中进行额外的编译。 相应的 HIP 函数 hipModuleLoadDataEx 在 HIP-Clang 路径上的行为与 hipModuleLoadData 相同（不使用编译选项），在 NVCC 路径上则表现为 cuModuleLoadDataEx。 例如，CUDA 代码如下： 
  CUmodule module;
void *imagePtr = ...;  // 以某种方式用代码对象填充数据指针
const int numOptions = 1;
CUJit_option options[numOptions];
void * optionValues[numOptions];
options[0] = CU_JIT_MAX_REGISTERS;
unsigned maxRegs = 15;
optionValues[0] = (void*)(&maxRegs);

cuModuleLoadDataEx(module, imagePtr, numOptions, options, optionValues);
CUfunction k;
cuModuleGetFunction(&k, module, "myKernel"); 
  HIP 代码如下： 
  hipModule_t module;
void *imagePtr = ...;  // 以某种方式用代码对象填充数据指针
const int numOptions = 1;
hipJitOption options[numOptions];
void * optionValues[numOptions];
options[0] = hipJitOptionMaxRegisters;
unsigned maxRegs = 15;
optionValues[0] = (void*)(&maxRegs);
// 在 HIP-Clang 路径上将调用 hipModuleLoadData(module, imagePtr)，不会使用 JIT 选项，并且
// 在 NVCC 路径上将调用 hipModuleLoadDataEx(module, imagePtr, numOptions, options, optionValues)
hipModuleLoadDataEx(module, imagePtr, numOptions, options, optionValues);
hipFunction_t k;
hipModuleGetFunction(&k, module, "myKernel"); 
  下面的例子展示了如何使用 hipModuleGetFunction： 
  #include
#include
#include
#include
#include
#define LEN 64
#define SIZE LEN<<2
#ifdef __HIP_PLATFORM_HCC__
#define fileName "vcpy_isa.co"
#endif
#ifdef __HIP_PLATFORM_NVCC__
#define fileName "vcpy_isa.ptx"
#endif
#define kernel_name "hello_world"
int main(){
    float *A, *B;
    hipDeviceptr_t Ad, Bd;
    A = new float[LEN];
    B = new float[LEN];
    for(uint32_t i=0;iargBuffer(2);
    memcpy(&argBuffer[0], &Ad, sizeof(void*));
    memcpy(&argBuffer[1], &Bd, sizeof(void*));
    size_t size = argBuffer.size()*sizeof(void*);
    void *config[] = {
      HIP_LAUNCH_PARAM_BUFFER_POINTER, &argBuffer[0],
      HIP_LAUNCH_PARAM_BUFFER_SIZE, &size,
      HIP_LAUNCH_PARAM_END
    };
    hipModuleLaunchKernel(Function, 1, 1, 1, LEN, 1, 1, 0, 0, NULL, (void**)&config);
    hipMemcpyDtoH(B, Bd, SIZE);
    for(uint32_t i=0;i
 
  3. HIP Module and Texture Driver API 
  HIP 支持纹理驱动 API，但纹理引用应该在主机作用域内声明。以下代码解释了如何在 HIP_PLATFORM_HCC 平台上使用纹理引用。 
  // 生成代码对象的代码
#include "hip/hip_runtime.h"
extern texture tex;

__global__ void tex2dKernel(hipLaunchParm lp, float* outputData,
                            int width,
                            int height)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    outputData[y * width + x] = tex2D(tex, x, y);
}
// 主机代码
texture tex;
void myFunc()
{
    // ...
    textureReference* texref;
    hipModuleGetTexRef(&texref, Module1, "tex");
    hipTexRefSetAddressMode(texref, 0, hipAddressModeWrap);
    hipTexRefSetAddressMode(texref, 1, hipAddressModeWrap);
    hipTexRefSetFilterMode(texref, hipFilterModePoint);
    hipTexRefSetFlags(texref, 0);
    hipTexRefSetFormat(texref, HIP_AD_FORMAT_FLOAT, 1);
    hipTexRefSetArray(texref, array, HIP_TRSA_OVERRIDE_FORMAT);
    // ...
}
 
  在这段代码中，我们首先在设备代码中定义了一个二维纹理 tex，然后在内核函数 tex2dKernel 中使用该纹理。在主机代码中，我们声明了一个与设备纹理相对应的主机侧纹理引用 tex，并通过 hipModuleGetTexRef 函数获取纹理引用的指针 texref。接着，我们使用一系列函数来设置纹理的地址模式、过滤模式、标志、格式和数组。

H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
算力驱动新质生产力：应用实践与发展路径智能计算研究中心其他
内容概要算力作为新质生产力的核心驱动力，正通过技术创新与场景融合重构产业生态。当前算力发展呈现多维突破态势：在基础架构层面，异构计算与模型压缩技术推动硬件资源利用率提升；在应用场景端，工业互联网算力优化生产流程，智能安防算力实现毫秒级风险响应；在系统协同方面，算力调度机制与能效优化策略形成动态平衡网络。随着国家算力网战略推进，芯片架构创新、绿色数据中心建设与算力租赁模式正加速形成产业链闭环，为量子
SSM+Vue共享充电宝管理系统充电宝投放管理系统共享充电宝维护管理系统Java 计算机程序老哥
作者主页：计算机毕业设计老哥有问题可以主页问我一、开发介绍1.1开发环境开发语言：Java数据库：MySQL系统架构：B/S后端：SSM(Spring+SpringMVC+Mybatis)前端：Vue工具：IDEA或者Eclipse，JDK1.8，Maven二、系统介绍2.1图片展示注册登录页面：登陆前端页面功能：首页、合作商户、充电宝投放、公告栏、个人中心、后台管理首页.png充电宝投放.png
深入详解K近邻算法（KNN）：基本概念、原理及在医学影像领域的应用与实现猿享天开近邻算法算法医学影像人工智能机器学习大模型
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
java计算机毕业设计基于Ssm学生信息管理系统源程序+mysql+系统+lw文档+远程调试岗子科技 mysql java 数据库
java计算机毕业设计基于Ssm学生信息管理系统源程序+mysql+系统+lw文档+远程调试java计算机毕业设计基于Ssm学生信息管理系统源程序+mysql+系统+lw文档+远程调试本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：My
Nacos - 阿里开源配置中心文振熙
配置中心相信大家都有听过，zookeeper、apollo等等都是配置中心的代表，但大部分都是JAVA系为主的，笔者主要开发语言使用的是Golang当然也有类似于ETCD这样的组件，但是并不方便管理也无法可视化，在无意之间发现了阿里爸爸开源了nacos这个服务发现+配置中心组件，也经过了一段时间的时候在这里分享给大家附上:喵了个咪的博客:w-blog.cnNacos官方Git地址:https://
基于SSM的医院血库管理系统的设计与实现 JAVA编码选手计算机毕业设计实战案例 django spring boot maven java intellij-idea eclipse java-ee
开发环境开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：Maven3.3.9浏览器：谷歌浏览器后台路径地址：localhost:8080/项目名称/admin/dist/index.html前台路径地址：localh
uni-app跨平台开发知识点总结
uni-app简介uni-app概述：uni-app是一个使用Vue.js开发所有前端应用的框架，开发者编写一套代码，可发布到iOS、Android、Web（响应式）、以及各种小程序（微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/淘宝）、快应用等多个平台。uni-app由来：是为了解决跨平台开发的问题。在移动应用开发中，不同平台（如iOS、Android）有不同的开发语言和技术栈，这导致开发者
基于国产手机 SoC 的多模态模型推理加速实战：GPU × NPU 协同优化全流程解析观熵智能终端Ai探索与创新实践人工智能 android NPU GPU
基于国产手机SoC的多模态模型推理加速实战：GPU×NPU协同优化全流程解析关键词多模态模型推理、NPU硬件加速、GPU并行计算、国产手机SoC、端侧部署优化、华为昇腾NPU、小米Surge芯片、高通AIEngine、异构计算加速、TFLiteNNAPI、ONNXRuntimeEP摘要随着国产智能手机SoC（如华为昇腾、vivoV系列、小米Surge、紫光展锐、联发科Dimensity）的异构计算
C#实现24种数据校验算法的综合指南及工具包.zip 语嫣凝冰
本文还有配套的精品资源，点击获取简介：在数据通信和网络编程中，数据的完整性和准确性是至关重要的。C#作为一种流行的开发语言，提供了强大的工具来实现各类数据校验算法。本压缩包包含了一个名为“WindowsFormsApp”的C#应用程序，用于展示和实验24种数据校验方法，涵盖从简单到复杂的各种算法。这包括CRC校验、MD5、SHA系列、Adler32、Checksum、ParityBit、LRC、H
大模型部署的整体架构 flyair_China 人工智能云计算架构
一、大模型部署架构1.1部署架构大模型部署的整体架构是一个多层次、软硬件协同的系统工程，旨在解决模型规模庞大、计算资源密集、延迟敏感等挑战。1.1.1、基础架构层：硬件资源与网络算力集群GPU/NPU阵列：如NVIDIAA100/H100/H200/H800、华为昇腾、昆仑芯等，支持FP16/INT8量化计算，显存带宽需达TB级（如HBM3e显存带宽达3.35TB/s）。异构计算：CPU+GPU/
QCS8550 硬件性能全解析：参数、性能、优化，一篇讲透伊利丹~怒风 Qualcomm 算法 python 人工智能边缘计算无人机机器人
在物联网（IoT）设备向高性能、智能化演进的过程中，处理器作为核心算力单元扮演着关键角色。高通推出的Dragonwing™QCS8550处理器，凭借4nm工艺、异构计算架构、极致边缘AI处理能力及Wi-Fi7连接等特性，成为面向工业无人机、自主移动机器人、边缘AI盒子等高性能IoT场景的旗舰解决方案。本文将从核心参数、性能优势、优化亮点三个维度，全面解析这款处理器的技术实力。一、核心参数：4nm工
自己开发FT4222上位机软件 - USB转SPI EE工程师嵌入式系统 python 单片机模块测试
写作背景最近公司有个项目，让开发一个能够同时进行千兆网接收和SPI配置的上位机软件，开发语言不限，所以作者选择Python+PyQt作开发，做嵌入式固件开发的读者可能知道还需要一块USB转SPI的模块才能进行上下位机正常SPI读写，项目团队成员建议模块从淘宝网购买就好，作者经过调研对比，感觉从芯片质量到开发配套上来讲，FTDI的FT4222模块是最优选择。但令作者感到不快的是淘宝商家不提供模块
Github 2024-06-07开源项目日报 Top10
根据GithubTrendings的统计，今日(2024-06-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目3C++项目3JavaScript项目2JupyterNotebook项目1TypeScript项目1Vue项目1比特币核心：开源比特币软件创建周期：4919天开发语言：C++协议类型：MITLicenseStar数量：76760个F
Python+Selenium自动化
1，什么是seleniumselenium是一个开源的自动化测试框架，主要适用WEB测试，可以支持多种语言(Java,C#,Python,php等)，既然支持多语言开发，那跨平台自然就不用多说啦，selenium有几个版本，一个是seleniumIDE(是一个安装在火狐浏览器上的一个插件，可以用来录制脚本，然后导出自动生成对应的开发语言文件)，seleniumGrid(自动化辅助工具，楼主还没深入
Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析观熵国产 NPU ×Android 推理优化 android 人工智能
Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排、SoC协同处理、AI芯片编程摘要随着国产SoC平台持续迭代，Android系统中异构计算模式已从传统CPU+GPU并行计算，扩展到集成NPU、DSP、ISP等多核单元的复杂协同体系。在AI推理
大前端几种开发语言对比 Fighting Horse 开发语言 flutter swift kotlin
项目概述语言特性备注基本类型BasicOperators整数、浮点数C++整数类型宽度不固定，如int，自动数值类型转换Java没有无符号整数，存在装箱Box类型C#Swift基本tuple类型KotlinT?是Box的支持原生类型数组IntArray等无符号整数是Beta的，通过内联类实现Dart运算符BasicOperators赋值、流程、算术、位、逻辑、关系运算符下标、后缀、前缀运算符三元条
FPGA芯片厂商及关键的开发测试工具 Chip Design xPU Chip Design fpga开发
以下是结合2025年技术动态整理的。一、FPGA芯片主要厂商及产品系列厂商芯片系列典型特点目标市场AMD/XilinxVersal,Kintex,Artix,Zynq高性能异构计算（AI引擎+FPGA+CPU）数据中心、5G、航空航天Intel(Altera)Stratix,Arria,Agilex,Cyclone高带宽内存集成（HBM），支持CXL协议网络加速、边缘计算LatticeCertus
Qualcomm Hexagon DSP 与 AI Engine 架构深度分析：从微架构原理到 Android 部署实战观熵国产 NPU ×Android 推理优化人工智能架构 android
QualcommHexagonDSP与AIEngine架构深度分析：从微架构原理到Android部署实战关键词QualcommHexagon、AIEngine、HTA、HVX、HMX、Snapdragon、DSP推理加速、AIC、QNNSDK、Tensor编排、AndroidNNAPI、异构调度摘要HexagonDSP架构是QualcommSnapdragonSoC平台中长期演进的异构计算核心之一
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
国产替代Spring Boot框架的最佳之选——Solon 遇码开发工具 spring boot 后端 java solon
Java很好。SpringBoot也很好。有没有可以与SpringBoot对标的国产框架？请你记住，它叫Solon。本文推荐Solon，是因为我自己的一段经历。我主要使用的开发语言是Python，本着技多不压身的伟大指导思想，很早就想要征服SpringBoot，无奈尝试多次始终不得其要领，也就草草收场。前段时间因为项目需要，偶然了解到Solon，不仅可以平替SpringBoot，还是国产，还有我喜
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
Embabel：下一代企业级JVM AI智能体框架的革命引言：AI时代的Java生态新机遇 DZSpace 软件开发 jvm 人工智能 java
在生成式AI（如ChatGPT、Claude、Gemini）席卷全球的背景下，Python凭借其丰富的AI工具链（如PyTorch、LangChain）成为主流开发语言。然而，在企业级软件开发领域，Java和JVM生态（如Kotlin、Scala）长期以来占据主导地位，尤其是在金融、电信、电商等对稳定性、可扩展性、事务管理要求极高的场景。RodJohnson（Spring框架创始人）敏锐地发现了这
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析观熵大模型高阶优化技术专题算法人工智能
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析关键词异构调度、Kubernetes调度器、GPU任务绑定、MIG分配、推理流量调度、服务亲和性、任务隔离、资源优先级、边缘协同、动态算力管理摘要在AI推理系统的生产级部署中，单一自动扩缩容机制已无法满足实际复杂环境中对资源利用率、任务延迟与系统稳定性的多重要求。特别是在GPU/NPU/CPU并存的异构计算集群中，运行
Spring AI 教程（一）概述 PG Thinker Spring AI Spring ChatGPT 人工智能 spring java Spring AI
前言我在23年11月那会儿关注了SpringAI项目，当时我恰好正热衷于大语言模型的开发，然而当时主流的开发语言只有Python，Java生态中并没有强大的框架供我们使用。我当时也是靠一些封装OpenAI接口的SDK包来玩ChatGPT的，但是整体的体验较差。好在我通过一些技术交流群了解了一个正在处于实验阶段的项目：SpringAI。于是果断前往它的Github仓库进行学习，而我也恰好见证了S
RustFS：基于Rust的对象存储系统技术解析光爷不秃对象存储 rust 国产开源软件云计算 rust 数据库开源软件
在数据存储技术快速发展的当下，各类对象存储解决方案不断涌现。本文将从技术特性、功能设计等角度，对基于Rust语言开发的开源对象存储系统RustFS进行客观解析，为关注存储技术的读者提供参考。项目基本信息RustFS是一个开源对象存储系统，其核心目标是构建高性能、高可靠的数据存储架构。该项目选择Rust作为开发语言，主要利用了这门语言在内存安全和运行效率上的特性，同时通过兼容S3API的设计，降低了
一文读懂Python+Pytest+Allure+Jenkins+Gitee自动化测试框架，手把手教你搭建
Python+Pytest+Allure+Jenkins+Gitee自动化测试框架一、框架整体架构1.技术栈分工Python：测试脚本开发语言Pytest：测试用例管理和执行引擎Allure：测试报告生成与展示Jenkins：持续集成和任务调度Gitee：代码版本管理和触发机制2.数据流向Gitee代码提交→Jenkins触发构建→Pytest执行用例→生成Allure结果→Jenkins收集报告
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
Github 2024-05-07 开源项目日报 Tp10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-05-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量TypeScript项目4JupyterNotebook项目2Python项目1Batchfile项目1非开发语言项目1Java项目1HTML项目1C#项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个Fork数量：240
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

Transiting from CUDA to HIP（三）

一、Workarounds

1. memcpyToSymbol

2. CU_POINTER_ATTRIBUTE_MEMORY_TYPE

3. threadfence_system

4. Textures and Cache Control

二、More Tips

1. HIP Logging

2. Debugging hipcc

3. Editor Highlighting

三、HIP Porting Driver API

1. Porting CUDA Driver API

2. cuModule API

3. cuCtx API

4. HIP Module and Ctx APIs

5. hipCtx API

6. hipify translation of CUDA Driver API

四、HIP-Clang Implementation Notes

1. .hip_fatbin

2. Initialization and Termination Functions

3. Kernel Launching

4. Address Spaces

5. Using hipModuleLaunchKernel

6. Additional Information

五、NVCC Implementation Notes

1. Interoperation between HIP and CUDA Driver

2. Compilation Options

3. HIP Module and Texture Driver API

你可能感兴趣的:(HIP,异构计算,Rocm,开发语言)