Hungryof

Pytorch学习 (二十一) ------自定义C++/ATen扩展

总说

没办法, 出来混总是要还的, 不会写点底层代码没法混啊. 废话不多说, 简单来说, 有时候我们需要写一些自定义的操作, 这些操作如果用python写会很慢, 我们需要用CUDA写, 然后这些操作与python绑定, 以供python端调用.
主要是简略拿出 https://pytorch.org/tutorials/advanced/cpp_extension.html 的东西, 根据实践, 补充了一些东西(否则, 直接看官方文档可能会有一些地方需要花点实践), 没毛病. 看这个博客, 可以的.

示例程序

class LLTM(torch.nn.Module):
    def __init__(self, input_features, state_size):
        super(LLTM, self).__init__()
        self.input_features = input_features
        self.state_size = state_size
        # 3 * state_size for input gate, output gate and candidate cell gate.
        # input_features + state_size because we will multiply with [input, h].
        self.weights = torch.nn.Parameter(
            torch.empty(3 * state_size, input_features + state_size))
        self.bias = torch.nn.Parameter(torch.empty(3 * state_size))
        self.reset_parameters()

    def reset_parameters(self):
        stdv = 1.0 / math.sqrt(self.state_size)
        for weight in self.parameters():
            weight.data.uniform_(-stdv, +stdv)

    def forward(self, input, state):
        old_h, old_cell = state
        X = torch.cat([old_h, input], dim=1)

		# 自定义C++扩展, 可以让这些操作, 变成一个fused的版本
        # Compute the input, output and candidate cell gates with one MM.
        gate_weights = F.linear(X, self.weights, self.bias)
        # Split the combined gate weight matrix into its components.
        gates = gate_weights.chunk(3, dim=1)

        input_gate = F.sigmoid(gates[0])
        output_gate = F.sigmoid(gates[1])
        # Here we use an ELU instead of the usual tanh.
        candidate_cell = F.elu(gates[2])

        # Compute the new cell state.
        new_cell = old_cell + candidate_cell * input_gate
        # Compute the new hidden state and output.
        new_h = F.tanh(new_cell) * output_gate

        return new_h, new_cell

import torch

X = torch.randn(batch_size, input_features)
h = torch.randn(batch_size, state_size)
C = torch.randn(batch_size, state_size)

rnn = LLTM(input_features, state_size)

new_h, new_C = rnn(X, (h, C))

C++扩展

简单来说, 我们写完C++程序后, python要用这些程序, 可以用pybind11. 然而, 安装pybind11需要用到pytest, 而pytest貌似只能在python3.5以上才能运行. 所以我们先弄个基于python3的Anaconda. 装好pytorch之后(随便你咋装上的). 然后再进行后续操作.

pybind11安装

git clone https://github.com/pybind/pybind11.git
pip install pytest

注意一下, 这里的pip -V最好是显示anaconda3中的pip, 从而确保下载的pytest是python3版本.

cd pybind11
mkdir build
cd build
cmake ..
make check -j 4

编译好的动态库是test目录下的so文件.

pytorch的相关事宜

我们要写pytorch扩展, 得下载pytorch源代码.

git clone --recursive https://github.com/pytorch/pytorch

然后我们在pytorch根目录下, 建立一个文件夹, 比如 lltm-extension.
并在该文件夹下, 建立setup.py, 里面写

from setuptools import setup
from torch.utils.cpp_extension import CppExtension, BuildExtension

setup(
    name='lltm',
    ext_modules=[CppExtension('lltm', ['lltm.cpp'])],
    cmdclass={'build_ext': BuildExtension})

这个是用来编译C++代码的.
然后在该目录下新建一个lltm.cpp, 把下面代码贴上去.
注意, 这里用的是不是教程的(这个是desperated的)
值得注意的是, extension.h里面主要包含了三种

ATen 库
pybind11, 用来为C++产生python绑定的
处理ATen和pybind11交互的头文件

#include 
# include 



std::vector<at::Tensor> lltm_forward(
    at::Tensor input,
    at::Tensor weights,
    at::Tensor bias,
    at::Tensor old_h,
    at::Tensor old_cell) {
  auto X = at::cat({old_h, input}, /*dim=*/1);

  auto gate_weights = at::addmm(bias, X, weights.transpose(0, 1));
  auto gates = gate_weights.chunk(3, /*dim=*/1);

  auto input_gate = at::sigmoid(gates[0]);
  auto output_gate = at::sigmoid(gates[1]);
  auto candidate_cell = at::elu(gates[2], /*alpha=*/1.0);

  auto new_cell = old_cell + candidate_cell * input_gate;
  auto new_h = at::tanh(new_cell) * output_gate;

  return {new_h,
          new_cell,
          input_gate,
          output_gate,
          candidate_cell,
          X,
          gate_weights};
}

// tanh'(z) = 1 - tanh^2(z)
at::Tensor d_tanh(at::Tensor z) {
  return 1 - z.tanh().pow(2);
}

at::Tensor d_sigmoid(at::Tensor z) {
  auto s = at::sigmoid(z);
  return (1 - s) * s;
}

// elu'(z) = relu'(z) + { alpha * exp(z) if (alpha * (exp(z) - 1)) < 0, else 0}
at::Tensor d_elu(at::Tensor z, at::Scalar alpha = 1.0) {
  auto e = z.exp();
  auto mask = (alpha * (e - 1)) < 0;
  return (z > 0).type_as(z) + mask.type_as(z) * (alpha * e);
}

std::vector<at::Tensor> lltm_backward(
    at::Tensor grad_h,
    at::Tensor grad_cell,
    at::Tensor new_cell,
    at::Tensor input_gate,
    at::Tensor output_gate,
    at::Tensor candidate_cell,
    at::Tensor X,
    at::Tensor gate_weights,
    at::Tensor weights) {
  auto d_output_gate = at::tanh(new_cell) * grad_h;
  auto d_tanh_new_cell = output_gate * grad_h;
  auto d_new_cell = d_tanh(new_cell) * d_tanh_new_cell + grad_cell;

  auto d_old_cell = d_new_cell;
  auto d_candidate_cell = input_gate * d_new_cell;
  auto d_input_gate = candidate_cell * d_new_cell;

  auto gates = gate_weights.chunk(3, /*dim=*/1);
  d_input_gate *= d_sigmoid(gates[0]);
  d_output_gate *= d_sigmoid(gates[1]);
  d_candidate_cell *= d_elu(gates[2]);

  auto d_gates =
      at::cat({d_input_gate, d_output_gate, d_candidate_cell}, /*dim=*/1);

  auto d_weights = d_gates.t().mm(X);
  auto d_bias = d_gates.sum(/*dim=*/0, /*keepdim=*/true);

  auto d_X = d_gates.mm(weights);
  const auto state_size = grad_h.size(1);
  auto d_old_h = d_X.slice(/*dim=*/1, 0, state_size);
  auto d_input = d_X.slice(/*dim=*/1, state_size);

  return {d_old_h, d_input, d_weights, d_bias, d_old_cell};
}

// 我们需要在最后加上这几行
// 从而将程序绑定到python端
PYBIND11_MODULE(lltm, m) {
  m.def("forward", &lltm_forward, "LLTM forward");
  m.def("backward", &lltm_backward, "LLTM backward");
}

此时我们的目录是这样的

pytorch/
    lltm-extension/
         lltm.cpp
         setup.py

然后 python setup.py install, 注意, 这里的setpu.py是在lltm-extension下的文件, 不是pytorch根目录下的那个文件.
然后大概是这样的, 我们可以看到, 这只是编译我们写的 lltm文件, 其他都不会编译.并且编译好的python打包正好在anaconda里面, lltm-0.0.0-py3.6-linux-x86_64.egg.

running install
running bdist_egg
running egg_info
writing lltm.egg-info/PKG-INFO
writing dependency_links to lltm.egg-info/dependency_links.txt
writing top-level names to lltm.egg-info/top_level.txt
reading manifest file 'lltm.egg-info/SOURCES.txt'
writing manifest file 'lltm.egg-info/SOURCES.txt'
installing library code to build/bdist.linux-x86_64/egg
running install_lib
running build_ext
building 'lltm' extension
gcc -Wsign-compare -DNDEBUG -g -fwrapv -O3 -Wall -Wstrict-prototypes -fPIC -I~/local/miniconda/lib/python3.6/site-packages/torch/lib/include -I~/local/miniconda/lib/python3.6/site-packages/torch/lib/include/TH -I~/local/miniconda/lib/python3.6/site-packages/torch/lib/include/THC -I~/local/miniconda/include/python3.6m -c lltm.cpp -o build/temp.linux-x86_64-3.6/lltm.o -DTORCH_EXTENSION_NAME=lltm -std=c++11
cc1plus: warning: command line option ‘-Wstrict-prototypes’ is valid for C/ObjC but not for C++
g++ -pthread -shared -B ~/local/miniconda/compiler_compat -L~/local/miniconda/lib -Wl,-rpath=~/local/miniconda/lib -Wl,--no-as-needed -Wl,--sysroot=/ build/temp.linux-x86_64-3.6/lltm.o -o build/lib.linux-x86_64-3.6/lltm.cpython-36m-x86_64-linux-gnu.so
creating build/bdist.linux-x86_64/egg
copying build/lib.linux-x86_64-3.6/lltm_cuda.cpython-36m-x86_64-linux-gnu.so -> build/bdist.linux-x86_64/egg
copying build/lib.linux-x86_64-3.6/lltm.cpython-36m-x86_64-linux-gnu.so -> build/bdist.linux-x86_64/egg
creating stub loader for lltm.cpython-36m-x86_64-linux-gnu.so
byte-compiling build/bdist.linux-x86_64/egg/lltm.py to lltm.cpython-36.pyc
creating build/bdist.linux-x86_64/egg/EGG-INFO
copying lltm.egg-info/PKG-INFO -> build/bdist.linux-x86_64/egg/EGG-INFO
copying lltm.egg-info/SOURCES.txt -> build/bdist.linux-x86_64/egg/EGG-INFO
copying lltm.egg-info/dependency_links.txt -> build/bdist.linux-x86_64/egg/EGG-INFO
copying lltm.egg-info/top_level.txt -> build/bdist.linux-x86_64/egg/EGG-INFO
writing build/bdist.linux-x86_64/egg/EGG-INFO/native_libs.txt
zip_safe flag not set; analyzing archive contents...
__pycache__.lltm.cpython-36: module references __file__
creating 'dist/lltm-0.0.0-py3.6-linux-x86_64.egg' and adding 'build/bdist.linux-x86_64/egg' to it
removing 'build/bdist.linux-x86_64/egg' (and everything under it)
Processing lltm-0.0.0-py3.6-linux-x86_64.egg
removing '~/local/miniconda/lib/python3.6/site-packages/lltm-0.0.0-py3.6-linux-x86_64.egg' (and everything under it)
creating ~/local/miniconda/lib/python3.6/site-packages/lltm-0.0.0-py3.6-linux-x86_64.egg
Extracting lltm-0.0.0-py3.6-linux-x86_64.egg to ~/local/miniconda/lib/python3.6/site-packages
lltm 0.0.0 is already the active version in easy-install.pth

Installed ~/local/miniconda/lib/python3.6/site-packages/lltm-0.0.0-py3.6-linux-x86_64.egg
Processing dependencies for lltm==0.0.0
Finished processing dependencies for lltm==0.0.0

我们conda list时候, 发现里面有:

lltm                      0.0.0                    pypi_0    pypi

excellent, 变成一个包了, 所以可以直接import了.

import torch
import lltm
lltm.forward
<function lltm.PyCapsule.forward>
help(lltm.forward)
forward(...) method of builtins.PyCapsule instance
    forward(arg0: at::Tensor, arg1: at::Tensor, arg2: at::Tensor, arg3: at::Tensor, arg4: at::Tensor) -> List[at::Tensor]

    LLTM forward

在python中使用我们自定义的库

在新建文件夹中, 建立文件LLTM_Module.py

import math
import torch

# Our module!
import lltm

class LLTMFunction(torch.autograd.Function):
    @staticmethod
    def forward(ctx, input, weights, bias, old_h, old_cell):
        outputs = lltm.forward(input, weights, bias, old_h, old_cell)
        new_h, new_cell = outputs[:2]
        variables = outputs[1:] + [weights]
        ctx.save_for_backward(*variables)

        return new_h, new_cell

    @staticmethod
    def backward(ctx, grad_h, grad_cell):
        outputs = lltm.backward(
            grad_h.contiguous(), grad_cell.contiguous(), *ctx.saved_variables)
        d_old_h, d_input, d_weights, d_bias, d_old_cell = outputs
        return d_input, d_weights, d_bias, d_old_h, d_old_cell


class LLTM(torch.nn.Module):
    def __init__(self, input_features, state_size):
        super(LLTM, self).__init__()
        self.input_features = input_features
        self.state_size = state_size
        self.weights = torch.nn.Parameter(
            torch.empty(3 * state_size, input_features + state_size))
        self.bias = torch.nn.Parameter(torch.empty(3 * state_size))
        self.reset_parameters()

    def reset_parameters(self):
        stdv = 1.0 / math.sqrt(self.state_size)
        for weight in self.parameters():
            weight.data.uniform_(-stdv, +stdv)

    def forward(self, input, state):
        return LLTMFunction.apply(input, self.weights, self.bias, *state)

然后我们新建一个文件run_lltm.py

import torch
from LLTM_Module import LLTM
import time

assert torch.cuda.is_available()

cuda_device = torch.device("cuda")

batch_size = 16
input_features = 32
state_size = 128

X = torch.randn(batch_size, input_features, device=cuda_device)
h = torch.randn(batch_size, state_size, device=cuda_device)
C = torch.randn(batch_size, state_size, device=cuda_device)

rnn = LLTM(input_features, state_size).to(cuda_device)

forward = 0
backward = 0
for _ in range(100000):
    start = time.time()
    new_h, new_C = rnn(X, (h, C))
    torch.cuda.synchronize()
    forward += time.time() - start

    start = time.time()
    (new_h.sum() + new_C.sum()).backward()
    torch.cuda.synchronize()
    backward += time.time() - start

print('Forward: {:.3f} us | Backward {:.3f} us'.format(forward * 1e6/1e5, backward * 1e6/1e5))

我们可以看到其实lltm.cpp就是直接将pytorch的api用ATen的api翻译了一下.这样测试了一下, 就会发现效果有提升. 值得注意的是:这样写的给予ATen的C++扩展可以同时适用与cpu和gpu的数据. , 把run_lltm.py中的数据变成cpu的, 发现仍旧可以运行.
在python+GPU以及C++/ATen + GPU的实验效果如下:

Forward: 187.719 us | Backward 410.815 us
Forward: 149.802 us | Backward 393.458 us

啥, 就提升这么点?? 没劲! **其实, 我们刚才用的是ATen的, 书写比较简单, 我们其实可以用自定义的cuda kernels**来进一步加速.
看后面的博客.

Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
PyTorch武侠演义第一卷：初入江湖第7章：矿洞中的计算禁制空中湖 pytorch武侠演绎 pytorch 人工智能 python
第一卷：初入江湖第7章：矿洞中的计算禁制矿洞深处罗盘残件在接近矿洞时突然发热，指针疯狂旋转。"就是这里，"欧阳长老抚摸着洞壁上的计算图刻痕，“TensorFlow帮用静态图封印了矿脉。”林小码看到：幽蓝矿脉构成巨大的计算图结构水晶矿簇随呼吸节奏明灭（CUDA核心）矿道中流淌着数据光流（内存带宽）"小心！"大师突然拉回林小码。他刚才踩中的矿砖下陷，触发岩壁上的机关——数十道计算图锁链从四面八方射来！
数字人克隆中SyncTalk算法介绍与部署过程优秘智能UMI 人工智能 ubuntu
SyncTalk算法介绍SyncTalk合成同步的头部说话视频，采用三平面哈希表示来保持主体身份。它可以生成同步的嘴唇动作、面部表情和稳定的头部姿势，并恢复头发细节以创建高分辨率视频。部署在Linux中部署该项目，在Ubuntu18.04、Pytorch1.12.1和CUDA11.3上测试。gitclonehttps://github.com/ZiqiaoPeng/SyncTalk.gitcdSy
风格迁移（Style Transfer）
1.什么是风格迁移（StyleTransfer）：简单介绍风格迁移的概念，指的是将一张图像的内容与另一张图像的艺术风格结合起来，从而生成一个新的图像。例如，将一张风景图像的内容与一幅著名艺术作品（如梵高的《星夜》）的风格结合。应用场景：风格迁移常用于图像生成、艺术创作和增强现实等领域。目标：本文将讲解如何使用PyTorch和VGG19模型实现风格迁移，并展示其核心代码。2.风格迁移的原理在这一部分
标签助手：基于LabelImg和YOLOv5的图像半自动标注工具伏容一Julia
标签助手：基于LabelImg和YOLOv5的图像半自动标注工具项目基础介绍标签助手（labelGo-Yolov5AutoLabelImg）是一个图形化的半自动图像注解工具，它结合了广受欢迎的图像标注工具LabelImg的力量与先进的目标检测框架YOLOv5。这个开源项目旨在简化数据集的标注过程，利用现有YOLOv5PyTorch模型实现快速的半自动化标注，极大地提高了标注效率。项目主要采用Pyt
【MMCV】MMCV安装与踩坑 Elendill Pyhton pytorch python mmcv
确认MMCV版本首先确认项目所需MMCV的版本是多少mmcv2.0版本的代码相比较于=2.0.0安装方法新创建一个conda环境安装pytorch：condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.8-cpytorch-cnvidia安装mim，这是openmm官方推出的用于安装他们旗下mm系列产品的安装器：pipinstall-Uop
基于Jetson Nano与PyTorch的无人机实时目标跟踪系统搭建指南
引言：边缘计算赋能智能监控在AIoT时代，将深度学习模型部署到嵌入式设备已成为行业刚需。本文将手把手指导读者在NVIDIAJetsonNano（4GB版本）开发板上，构建基于YOLOv5+SORT算法的实时目标跟踪系统，集成无人机控制与地面站监控界面，最终打造低功耗智能监控设备。通过本项目，读者将掌握：嵌入式端模型优化与部署技巧；多目标跟踪算法工程化实现；无人机-地面站协同控制架构；边缘计算场景下
【语义分割专栏】4：deeplab系列实战篇(附上完整可运行的代码pytorch) fouen 语义分割 pytorch 人工智能 python 计算机视觉深度学习
文章目录前言Deeplab系列全流程代码模型搭建(model)backbone的搭建Deeplabv1Deeplabv2Deeplabv3Deeplabv3+数据处理(dataloader)评价指标(metric)训练流程(train)模型测试(test)效果图结语前言Deeplab系列原理篇讲解：【语义分割专栏】4：deeplab系列原理篇_deeplab系列详解-CSDN博客代码地址，下载可复
pytorch学习笔记-自定义卷积墨染枫深度学习 pytorch 学习笔记
未完结的草稿———！大概是准备整合一下常见的层，整合完感觉就可以进行搭建了（还没进行到这一步所以不太确定版）（ps我将在完结这一篇的时候删除上面的小字and二编一下整篇文章的结构，如果看到了这部分文字也是很有缘分了/doge这一部分感觉也没啥好说的==也就是reshape部分值得注意一下？剩下的感觉就是了解一下用法就可以importtorchimporttorch.nnasnnimporttorc
PyTorch武侠演义第一卷：初入江湖第5章：玉如意的秘密
第一卷：初入江湖第5章：玉如意的秘密百年秘辛藏经阁最深处，大师掀开尘封的《门派大事记》，指向一幅泛黄的画卷：“看，这就是百年前的优化器长老——欧阳调参。”画中人手持玉如意，面前悬浮着九个水晶球。林小码凑近细看，发现如意上刻着「lr=0.001」。“当年TensorFlow帮为何要盗损失玉佩？”大师叹息：“因为这块玉佩，正是控制玉如意能量的钥匙…”突然，书架后传来机关转动的咔嗒声。一道暗门缓缓打开，
使用PyTorch实现目标检测与跟踪认真写代码i pytorch 目标检测人工智能 Python
目标检测与跟踪是计算机视觉领域中的重要任务，它可以帮助我们在图像或视频中准确地定位和跟踪特定物体。PyTorch是一个流行的深度学习框架，提供了强大的工具和库，可以用于目标检测与跟踪的实现。本文将详细介绍如何使用PyTorch实现目标检测与跟踪，并提供相应的源代码。安装PyTorch和相关依赖首先，我们需要安装PyTorch和其他必要的依赖项。你可以通过以下命令使用pip安装PyTorch：pip
Pytorch 自定义损失函数 DeniuHe Pytorch
自定义HingeLossclassMyHingeLoss(torch.nn.Module):#不要忘记继承Moduledef__init__(self):super(MyHingeLoss,self).__init__()defforward(self,output,target):"""output和target都是1-D张量,换句话说,每个样例的返回是一个标量."""hinge_loss=1-
Pytorch实现目标检测
importosimportrandomimportpandasaspdimportnumpyasnpimportcv2fromsklearn.model_selectionimporttrain_test_splitimporttorchfromtorch.utils.dataimportDataset,DataLoaderimporttorch.nnasnnimporttorch.nn.fun
解决TensorBoard报错“log_dir is not a directory“的完整指南 SEVEN是7 tensorflow python 深度学习
在使用PyTorch的TensorBoard进行训练可视化时，许多开发者会遇到FailedPreconditionError:./文件名isnotadirectory的错误。本文将深入分析这个问题的根源，并提供完整的解决方案，特别是针对中文路径这一常见但容易被忽视的问题。问题一（目录确实存在的情况下）：路径中包含中文解决：更改文件名为正确的命名格式（注意：连模型的文件名也不要用中文，确保绝对路径全
Pytorch混合精度训练最佳实践贝塔西塔工程经验 pytorch 人工智能深度学习混合精度模型加速
混合精度训练（MixedPrecisionTraining）是一种通过结合单精度（FP32）和半精度（FP16/FP8）计算来加速训练、减少显存占用的技术。它在保持模型精度的同时，通常能带来2-3倍的训练速度提升，并减少约50%的显存使用，是平衡训练效率与数值稳定性的核心技术，尤其在大模型训练中不可或缺。以下从GradScaler底层逻辑、避坑技巧（含NaN解决方案）、PyTorchLightni
Pytorch自定义优化器最佳实践
在PyTorch中，自定义优化器需要遵循特定的规范以兼容PyTorch的训练流程。下面从核心方法、closure的作用，到Ranger优化器的实现，逐步展开说明。一、PyTorch自定义优化器的必要方法自定义优化器必须继承torch.optim.Optimizer，并实现以下核心方法：init(self,params,defaults)作用：初始化优化器，定义超参数（如学习率、动量等），并为参数组
PytorchLightning最佳实践基础篇贝塔西塔工程经验 pytorch Lightning 深度学习编程框架
PyTorchLightning（简称PL）是一个建立在PyTorch之上的高层框架，核心目标是剥离工程代码与研究逻辑，让研究者专注于模型设计和实验思路，而非训练循环、分布式配置、日志管理等重复性工程工作。本文从基础到进阶，全面介绍其功能、核心组件、封装逻辑及最佳实践。一、PyTorchLightning核心价值原生PyTorch训练代码中，大量精力被消耗在：手动编写训练/验证循环（epoch、b
Linux指令&&ros学习&&python深度学习&&bug学习笔记起个别名 Linux ROS Python
##这个文件是关于ros、linux指令，pytorch、python、onnx和相关problem的一些笔记###ROS&&linux**find:在当前路径或指定的路径下递归地搜索文件或目录，并可以根据不同的条件进行过滤和匹配。**```find-name*.pyfind/home/dai/bev_lane_det-main-namemodelsfind/home/dai/bev_lane_d
零基础完整版入门经典深度学习时间序列预测项目实战+最新前沿时间序列预测模型代码讲解学习整理（附完整可运行代码） OverOnEarth 时间序列预测项目实战深度学习学习人工智能
专栏内容本专栏主要整理了作者在时间序列预测领域内的一些学习思路与代码整理，帮助大家在初进入此领域时，可以快速掌握代码进行实战操作，对代码的操作再结合论文阅读肯定是上升更快嘛，作者也愿意和大家一起讨论进步，下面的内容会逐步更新，作者主页的资源列也会放出一些可下载的资源供大家参考学习噢。一、LSTM时间序列预测完整代码示例学习分析（pytorch框架）精选试读文章二、LSTM多变量输入实现多步预测完整
第十四章:AI的数据“集装箱”：彻底搞懂Tensor的Batch与维度爱分享的飘哥 AI新纪元：120日觉醒计划 Tensor PyTorch BatchSize 数据处理 AI基础深度学习教程
AI数据集中箱前言：为什么AI从不“零售”，总是“批发”？1：Batch（批次）——GPU的“灵魂伴侣”1.1单个处理vs.批量处理：CPU与GPU的思维差异1.2DataLoader：PyTorch的“自动化装箱员”2：维度的语言——破译[B,L,D]的含义2.1[L,D]：一个句子的“二维画像”2.2[B,L,D]：一批句子的“三维魔方”2.3用代码直观感受维度的增加3：追踪Tensor的“变
PyTorch中实现早停机制（EarlyStopping）附代码自信的小螺丝钉 AI知识 pytorch python 人工智能 AI 深度学习
1.核心目的当模型在验证集上的性能不再提升时，提前终止训练防止过拟合，节省计算资源2.实现方法监控验证集指标（如损失、准确率），设置耐心值（Patience）3.代码：classEarlyStopping:def__init__(self,patience=10,delta=0):"""EarlystoppingArgs:patience:int,numberofepochstowaitbefor
【已解决】YOLO11模型转wts时报错:PytorchStreamReader failed reading zip archive lxmyzzs bug 人工智能 python 计算机视觉目标检测神经网络深度学习
问题：在把训练好的新YOLO11s模型转wts文件时报错，具体信息如下图（PytorchStreamReaderfailedreadingziparchive:failedfindingcentraldirectory）解决：新老版本pytorch之间的兼容问题，改动一下生成wts文件即可。代码帖在下面。importsys#noqa:F401importargparseimportosimport
Pytorch实现细节解析：Transformer模型的Encoder与Decoder逐行代码讲解 lazycatlove pytorch transformer 人工智能
文章目录摘要一、Transformer1.1为什么要使用attention1.2Transformer的优点二、Transformer模型Encoder和Decoder原理讲解与其Pytorch逐行实现2.1wordembedding2.2单词索引构成源句子和目标句子2.3构建positionembedding2.4构造encoder的self-attentionmask2.5构造intra-at
Transformer Masked loss原理精讲及其PyTorch逐行实现
MaskedLoss的核心原理是：在计算损失函数时，只考虑真实有意义的词元（token），而忽略掉为了数据对齐而填充的无意义的填充词元（paddingtoken）。这是重要的技术，可以确保模型专注于学习有意义的任务，并得到一个正确的性能评估。1.原理精讲为什么需要MaskedLoss？在训练神经网络时，我们通常会用一个批次（batch）的数据进行训练，而不是一次只用一个样本。对于自然语言处理任务，
Transformer模型Decoder原理精讲及其PyTorch逐行实现老鱼说AI transformer pytorch 深度学习人工智能学习 python
原理：Decoder的核心是一个自回归(Auto-regressive)的生成器。它的任务是在给定源序列的编码表示(encoder_outputs)和已生成的目标序列部分(y_1,...,y_{t-1})的条件下，预测出下一个词y_t的概率分布。一个标准的DecoderLayer包含三个核心子层：1.带掩码的多头自注意力(MaskedMulti-HeadSelf-Attention):用于处理已生
2025暑期—07YOLO-YOLOV11 宇称不守恒4.0 人工智能图像处理 YOLO 深度学习人工智能
安装的环境包括YoloV11，torch2.32.4Clip1.0D2LOpenCV4.12等安装1Conda环境安装YOLOcondacreate--prefix=D:/YOLO11/yolo11_envpython=3.10condaactivateD:\YOLO11\yolo11_envPytorch网站确定condainstallpytorch==2.3.0torchvision==0.1
PyTorch中的词嵌入层(nn.Embedding)详解与实践指南慕婉0307 自然语言处理 pytorch embedding 人工智能
一、词嵌入(WordEmbedding)简介词嵌入是自然语言处理(NLP)中的一项核心技术，它将离散的词语映射到连续的向量空间中。通过词嵌入，语义相似的词语在向量空间中的位置也会相近。为什么需要词嵌入？解决维度灾难：传统one-hot编码维度等于词汇表大小，而词嵌入维度可自定义捕捉语义关系：通过向量空间中的距离反映词语间的语义关系迁移学习：预训练的词嵌入可以在不同任务间共享二、PyTorch中的n
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

Pytorch学习 (二十一) ------自定义C++/ATen扩展

总说

C++扩展

pybind11安装

pytorch的相关事宜

在python中使用我们自定义的库

你可能感兴趣的:(pytorch,PyTorch)