DeniuHe

基于孪生网络 (Siamese Network) 的人脸识别系统

上一个帖子记录了基于普通CNN的人脸识别系统。但是，测试准确率实在太低了只有30%。这次使用孪生网络（Siamese Net）进行实现。

代码实现使用了 VGG19 预训练模型作为特征提取器，通过对比学习来判断两张人脸图像是否属于同一人。整个代码分为数据准备、模型构建、训练和测试四个主要部分。

import matplotlib.pyplot as plt
import torch
from torch import nn
from torch import optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
import os
from PIL import Image
import numpy as np
import random
import torchvision.transforms as transforms
import torchvision
import time
from torchvision import models

# 设置计算设备，优先使用GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
# 设置随机种子确保结果可复现
torch.manual_seed(123)
random.seed(123)
np.random.seed(10)

# ===============================================================
# 训练数据路径
dir_path = r'D:\数据集\faces\training'


# 训练数据集获取函数
# 功能：获取指定目录下所有图片文件及其对应的类别标签
# 参数：tpath - 数据集根目录
# 返回：[(文件路径, 类别标签), ...] 列表
def getFn_Dir(tpath):
    dirs = os.listdir(tpath)  # 获得所有类别目录名
    file_labels = []  # 用于保存(文件名,类别目录编号)的list
    for i, dir in enumerate(dirs):
        label = i  # 按目录对类别编号
        path2 = os.path.join(tpath, dir)
        files = os.listdir(path2)  # 获取当前类别目录下的所有文件名
        for file in files:
            fn = os.path.join(path2, file)  # 具体的文件名（含路劲）
            t = (fn, label)
            file_labels.append(t)
    # 多次随机打乱数据，增强随机性
    random.shuffle(file_labels)
    random.shuffle(file_labels)
    random.shuffle(file_labels)
    return file_labels


# 定义图像预处理管道
transform = transforms.Compose(
    [transforms.ToPILImage(),  # 转换为PIL图像
     transforms.Resize((100, 100)),  # 调整图像大小为100x100
     transforms.RandomHorizontalFlip(p=0.5),  # 随机水平翻转（数据增强）
     transforms.ToTensor(),  # 转换为张量
     transforms.Normalize((0.5,), (0.5,))])  # 归一化处理


# 自定义人脸数据集类
class FaceDataset(Dataset):
    def __init__(self, fn_labels2):
        self.fn_labels = fn_labels2  # 存储文件路径和标签对

    def __getitem__(self, idx):
        img1, label1 = self.fn_labels[idx]
        # 随机决定生成同类样本对还是不同类样本对
        fg = random.randint(0, 1)  # 随机生成0或1
        if fg == 1:  # 生成同类的样本对
            k = idx + 1
            while True:
                if k >= len(self.fn_labels):
                    k = 0
                img2, label2 = self.fn_labels[k]
                k += 1
                if int(label1) == int(label2):
                    break
        else:  # 生成不同类的样本对
            k = idx + 1
            while True:
                if k >= len(self.fn_labels):
                    k = 0
                img2, label2 = self.fn_labels[k]
                k += 1
                if int(label1) != int(label2):
                    break

        # 加载并预处理第一张图像
        img1 = Image.open(img1)
        img1 = np.array(img1)
        img1 = torch.Tensor(img1)
        img1 = transform(img1)

        # 加载并预处理第二张图像
        img2 = Image.open(img2)
        img2 = np.array(img2)
        img2 = torch.Tensor(img2)
        img2 = transform(img2)

        # 生成标签：相同为0，不同为1
        label = torch.Tensor(np.array([int(label1 != label2)], dtype=np.float32))
        return img1, img2, label

    def __len__(self):
        return len(self.fn_labels)


# 准备训练数据
fn_labels = getFn_Dir(dir_path)
faceDataset = FaceDataset(fn_labels)
train_loader = DataLoader(faceDataset, batch_size=8, shuffle=True)


# =====================================================
# 加载预训练的VGG19模型作为特征提取器
# 使用新的weights参数替代已弃用的pretrained参数
vgg19 = models.vgg19(weights=models.VGG19_Weights.IMAGENET1K_V1)
vgg19_cnn = vgg19.features
# 冻结VGG19的参数，不参与训练
for param in vgg19_cnn.parameters():
    param.requires_grad = False


# 定义孪生网络模型
class SiameseNet(nn.Module):
    def __init__(self):
        super(SiameseNet, self).__init__()
        # 定义共享卷积网络
        self.cnn = nn.Sequential(
            nn.ReflectionPad2d(1),  # 反射填充
            nn.Conv2d(1, 3, 3, padding=1),  # 将单通道图像转换为3通道，适配VGG19输入
            vgg19_cnn,  # 使用预训练的VGG19特征提取器
            nn.ReLU(inplace=True),  # ReLU激活
            nn.BatchNorm2d(512)  # 批量归一化
        )

        # 定义全连接层，将特征映射到低维空间
        self.fc1 = nn.Sequential(
            nn.Linear(512 * 3 * 3, 1024),  # 输入维度为VGG19输出的特征图展平后的大小
            nn.ReLU(inplace=True),
            nn.Linear(1024, 1024),
            nn.ReLU(inplace=True),
            nn.Linear(1024, 512)  # 输出512维特征向量
        )

    # 前向传播单张图像
    def forward_once(self, x):  # 输入形状: torch.Size([8, 1, 100, 100])
        o = x
        o = self.cnn(o)  # 通过卷积网络提取特征
        o = o.reshape(x.size(0), -1)  # 展平特征图
        o = self.fc1(o)  # 通过全连接层生成特征向量
        return o

    # 前向传播两张图像
    def forward(self, i1, i2):  # 输入形状: torch.Size([8, 1, 100, 100])
        # 两张图像分别通过相同的网络，共享权重
        o1 = self.forward_once(i1)
        o2 = self.forward_once(i2)
        return o1, o2


# 定义对比损失函数
class LossFunction(torch.nn.Module):
    def __init__(self, margin=2.0):
        super(LossFunction, self).__init__()
        self.margin = margin  # 定义距离阈值

    def forward(self, i1, i2, y):  # i1, i2为特征向量，y为标签(0或1)
        # 计算两个特征向量之间的欧氏距离
        dist = torch.pairwise_distance(i1, i2, keepdim=True)
        # 对比损失计算：
        # 对于同类样本(y=0)，最小化距离的平方
        # 对于不同类样本(y=1)，如果距离大于margin则损失为0，否则为(margin - dist)^2
        loss = torch.mean((1 - y) * torch.pow(dist, 2) + y * torch.pow(torch.clamp(self.margin - dist, min=0.0), 2))
        return loss


# ------------------------------------
# 初始化模型、优化器和损失函数
siameseNet = SiameseNet().to(device)  # 将模型移至GPU/CPU
optimizer = optim.Adam(siameseNet.parameters(), lr=0.001)  # 使用Adam优化器
lossFunction = LossFunction()  # 实例化损失函数

# 训练计时
start = time.time()

# 训练主循环
for ep in range(100):  # 训练100个轮次
    for i, (b_img1, b_img2, b_label) in enumerate(train_loader):
        # 将数据移至GPU/CPU
        b_img1, b_img2, b_label = b_img1.to(device), b_img2.to(device), b_label.to(device)

        # 前向传播
        pre_o1, pre_o2 = siameseNet(b_img1, b_img2)
        # 计算损失
        loss = lossFunction(pre_o1, pre_o2, b_label)
        # 每50个批次打印一次损失
        if i % 50 == 0:
            print(ep, loss.item())
        
        # 反向传播和优化
        optimizer.zero_grad()  # 清零梯度
        loss.backward()  # 计算梯度
        optimizer.step()  # 更新参数

# 计算训练耗时
end = time.time()
print('训练耗时：', round((end - start) / 60.0, 1), '分钟')
# 训练结束

# 保存模型状态字典
torch.save(siameseNet.state_dict(), 'siameseNet_state_dict.pth')

# ============= 以下开始测试 ===========================
# 图像加载和预处理函数
def getImg(fn):
    img = Image.open(fn)
    img2 = img.convert('RGB')  # 用于显示
    img = np.array(img)
    img = torch.Tensor(img)
    img = transform(img)
    return img


# 图像加载函数（仅用于显示）
def getImg_show(fn):
    img = Image.open(fn)
    img = img.convert('RGB')  # 用于显示
    img = np.array(img)
    return img


# 加载测试数据
path = r'D:\数据集\faces\testing'
fn_labels = getFn_Dir(path)

# 加载模型进行测试
siameseNet = SiameseNet().to(device)  # 实例化模型
siameseNet.load_state_dict(torch.load('siameseNet_state_dict.pth'))  # 加载训练好的参数
siameseNet.eval()  # 设置为评估模式（关闭Dropout等训练专用层）

# 测试模型性能
correct = 0
with torch.no_grad():  # 禁用梯度计算，节省内存并加速推理
    for fn, label in fn_labels:
        img = getImg(fn).unsqueeze(0).to(device)  # 加载测试图像
        img_min, dist_min, label_min, fn_min = -1, 1000, -1, -1  # 初始化最小距离和对应图像
        
        # 遍历所有图像，找到与当前图像最相似的图像
        for fn2, label2 in fn_labels:
            if fn == fn2:  # 跳过自身
                continue
            img2 = getImg(fn2).unsqueeze(0).to(device)
            pre_o1, pre_o2 = siameseNet(img, img2)  # 提取特征
            dist = torch.pairwise_distance(pre_o1, pre_o2, keepdim=True)  # 计算距离
            if dist_min > dist.item():  # 更新最小距离和对应图像
                dist_min = dist.item()
                img_min = img2
                label_min = label2
                fn_min = fn2
        
        # 判断预测是否正确
        correct += int(label == label_min)
        
        # 可视化代码（默认注释掉）
        img_show = getImg_show(fn)
        img_show2 = getImg_show(fn_min)
        images = dict()
        images[fn] = img_show
        images[fn_min] = img_show2


        def showTwoImages(images, stitle='', rows=1, cols=1):
            figure, ax = plt.subplots(nrows=rows, ncols=cols)
            for idx, title in enumerate(images):
                ax.ravel()[idx].imshow(images[title])
                ax.ravel()[idx].set_title(title)
                ax.ravel()[idx].set_axis_off()
            plt.tight_layout()
            plt.suptitle(stitle, fontsize=18, color='red')
            plt.show()


        stitle = 'Similarity: %.2f' % (dist_min)
        # showTwoImages(images, stitle, 1, 2)

# 打印测试结果
print('一共测试了{:.0f}张图片，准确率为{:.1f}%'.format(len(fn_labels), 100. * correct / len(fn_labels)))

换一种写法

import torch
from torch import nn
from torch import optim
from torch.utils.data import Dataset, DataLoader
import os
from PIL import Image
import numpy as np
import random
import torchvision.transforms as transforms
import torchvision
import time
from torchvision import models

# 随机种子固定
torch.manual_seed(123)
random.seed(123)
np.random.seed(10)

# 数据集路径（请确保此处路径正确）
dir_path = r'D:\数据集\faces\training'  # 训练集根目录（包含多个子目录，每个子目录为一类）
test_path = r'D:\数据集\faces\testing'  # 测试集根目录


# 1. 数据加载函数（带路径检查）
def getFn_Dir(tpath):
    """获取文件路径和标签列表（添加路径检查）"""
    if not os.path.exists(tpath):
        raise FileNotFoundError(f"数据集根目录不存在: {tpath}")

    dirs = os.listdir(tpath)
    file_labels = []

    for i, dir_name in enumerate(dirs):
        dir_path = os.path.join(tpath, dir_name)
        if not os.path.isdir(dir_path):
            print(f"跳过非目录文件: {dir_path}")
            continue

        # 过滤图像文件
        img_extensions = ('.png', '.jpg', '.jpeg', '.bmp', '.gif', '.pgm', '.ppm')
        files = [f for f in os.listdir(dir_path)
                 if f.lower().endswith(img_extensions)]

        if not files:
            print(f"警告：类别目录 {dir_name} 中未找到图像文件")
            continue

        # 添加图像路径和标签
        for file in files:
            file_path = os.path.join(dir_path, file)
            file_labels.append((file_path, i))

    if not file_labels:
        raise ValueError(f"在 {tpath} 中未找到任何图像文件，请检查路径或文件格式")

    random.shuffle(file_labels)
    print(f"成功加载 {len(file_labels)} 个图像样本")
    return file_labels


# 2. 数据预处理
transform = transforms.Compose([
    transforms.Resize((100, 100)),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.RandomRotation(10),
    transforms.ToTensor(),  # 转为[0,1]张量
    transforms.Normalize(mean=[0.5], std=[0.5])  # 归一化到[-1,1]（单通道灰度图）
])


# 3. 数据集类
class FaceDataset(Dataset):
    def __init__(self, fn_labels):
        self.fn_labels = fn_labels  # 格式：[(图像路径, 标签), ...]
        self.cache = {}  # 缓存预处理后的图像

    def __getitem__(self, idx):
        # 获取第一张图像
        img1_path, label1 = self.fn_labels[idx]
        img1 = self._load_image(img1_path)

        # 获取配对图像（同类或不同类）
        img2, label2 = self._get_pair(idx, label1)

        # 生成标签（0：同类，1：不同类）
        label = torch.tensor([int(label1 != label2)], dtype=torch.float32)
        return img1, img2, label

    def _load_image(self, path):
        """加载并预处理图像（确保单通道）"""
        if path in self.cache:
            return self.cache[path]
        # 强制转为灰度图（单通道）
        img = Image.open(path).convert('L')
        img = transform(img)
        self.cache[path] = img  # 缓存
        return img

    def _get_pair(self, idx, label1):
        """高效获取配对图像"""
        # 随机选择100个候选，避免遍历整个数据集
        candidates = random.sample(range(len(self.fn_labels)), min(100, len(self.fn_labels) - 1))
        for k in candidates:
            if k == idx:
                continue
            img2_path, label2 = self.fn_labels[k]
            # 检查是否符合配对条件（同类或不同类）
            if (random.random() < 0.5 and label2 == label1) or (random.random() >= 0.5 and label2 != label1):
                img2 = self._load_image(img2_path)
                return img2, label2
        # 若未找到候选，返回第一个非自身样本
        k = (idx + 1) % len(self.fn_labels)
        img2_path, label2 = self.fn_labels[k]
        img2 = self._load_image(img2_path)
        return img2, label2

    def __len__(self):
        return len(self.fn_labels)


# 4. 模型定义
class SiameseNet(nn.Module):
    def __init__(self):
        super(SiameseNet, self).__init__()
        # 加载预训练VGG19（冻结特征层）
        vgg19 = models.vgg19(weights=models.VGG19_Weights.IMAGENET1K_V1)
        self.cnn = nn.Sequential(
            nn.Conv2d(1, 3, kernel_size=3, padding=1),  # 单通道转3通道（适配VGG）
            vgg19.features,
            nn.AdaptiveAvgPool2d((3, 3))  # 固定输出尺寸为3x3
        )
        # 冻结VGG参数
        for param in self.cnn.parameters():
            param.requires_grad = False

        # 全连接层（简化结构，提升稳定性）
        self.fc = nn.Sequential(
            nn.Linear(512 * 3 * 3, 512),  # VGG输出特征：512通道×3×3
            nn.BatchNorm1d(512),
            nn.ReLU(inplace=True),
            nn.Linear(512, 128)  # 最终输出128维特征
        )
        # 初始化全连接层权重
        self._init_weights()

    def _init_weights(self):
        for m in self.fc.modules():
            if isinstance(m, nn.Linear):
                nn.init.xavier_uniform_(m.weight)  # 避免权重过大
                if m.bias is not None:
                    nn.init.zeros_(m.bias)

    def forward_once(self, x):
        x = self.cnn(x)
        x = x.view(x.size(0), -1)  # 展平特征
        x = self.fc(x)
        return x

    def forward(self, x1, x2):
        out1 = self.forward_once(x1)
        out2 = self.forward_once(x2)
        return out1, out2


# 5. 损失函数
class ContrastiveLoss(nn.Module):
    def __init__(self, margin=1.0):
        super().__init__()
        self.margin = margin

    def forward(self, out1, out2, label):
        # 计算欧氏距离
        dist = torch.pairwise_distance(out1, out2, keepdim=True)
        # 对比损失：同类样本距离越小越好，不同类样本距离大于margin越好
        loss = (1 - label) * torch.pow(dist, 2) + \
               label * torch.pow(torch.clamp(self.margin - dist, min=0), 2)
        return torch.mean(loss)


# 6. 训练函数
def train_model():
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"使用设备: {device}")

    # 加载训练数据（会自动检查路径）
    try:
        train_labels = getFn_Dir(dir_path)
    except Exception as e:
        print(f"数据加载失败：{e}")
        return None  # 加载失败则退出

    # 初始化数据集和数据加载器
    train_dataset = FaceDataset(train_labels)
    train_loader = DataLoader(
        train_dataset,
        batch_size=8,
        shuffle=True,
        num_workers=0  # Windows系统禁用多进程
    )

    # 模型、损失函数、优化器
    model = SiameseNet().to(device)
    criterion = ContrastiveLoss(margin=1.0)
    optimizer = optim.Adam(model.parameters(), lr=1e-4)  # 低学习率避免梯度爆炸
    scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=20, gamma=0.5)  # 学习率衰减

    # 训练主循环
    model.train()
    for epoch in range(50):
        running_loss = 0.0
        for i, (img1, img2, label) in enumerate(train_loader):
            # 数据移至设备
            img1, img2, label = img1.to(device), img2.to(device), label.to(device)

            # 前向传播
            out1, out2 = model(img1, img2)
            loss = criterion(out1, out2, label)

            # 反向传播（带梯度裁剪）
            optimizer.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=10.0)  # 防止梯度爆炸
            optimizer.step()

            running_loss += loss.item()

            # 打印中间结果
            if i % 50 == 0:
                print(f"Epoch {epoch}, Batch {i}, Loss: {loss.item():.4f}")

        # 每轮结束打印平均损失
        avg_loss = running_loss / len(train_loader)
        scheduler.step()  # 学习率衰减
        print(f"Epoch {epoch}/49, 平均损失: {avg_loss:.4f}")

    # 保存模型
    torch.save(model.state_dict(), "siamese_best.pth")
    print("模型保存成功: siamese_best.pth")
    return model


# 7. 测试函数
def test_model(model):
    if model is None:
        print("模型未初始化，无法测试")
        return

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.eval()  # 切换到评估模式

    # 加载测试数据
    try:
        test_labels = getFn_Dir(test_path)
    except Exception as e:
        print(f"测试数据加载失败：{e}")
        return

    # 预计算所有测试图像的特征
    all_features = []
    all_labels = []
    with torch.no_grad():  # 禁用梯度计算
        for img_path, label in test_labels:
            # 加载并预处理图像
            img = Image.open(img_path).convert('L')  # 转为灰度图
            img = transform(img).unsqueeze(0).to(device)  # 增加批次维度
            # 提取特征
            feat = model.forward_once(img)
            all_features.append(feat)
            all_labels.append(label)
        # 拼接为张量（形状：[样本数, 128]）
        all_features = torch.cat(all_features, dim=0)

    # 计算准确率
    correct = 0
    total = len(test_labels)
    with torch.no_grad():
        for i in range(total):
            # 当前图像特征
            query_feat = all_features[i].unsqueeze(0)
            # 计算与所有其他图像的距离
            distances = torch.cdist(query_feat, all_features, p=2).squeeze(0)
            # 排除自身（设置距离为无穷大）
            distances[i] = float('inf')
            # 找最近邻
            nearest_idx = torch.argmin(distances).item()
            # 判断是否同类
            if all_labels[i] == all_labels[nearest_idx]:
                correct += 1

    accuracy = 100.0 * correct / total
    print(f"测试结果：共 {total} 张图片，准确率：{accuracy:.1f}%")


# 主程序入口
if __name__ == '__main__':
    # 训练模型
    print("===== 开始训练 =====")
    model = train_model()
    # 测试模型
    print("\n===== 开始测试 =====")
    test_model(model)

Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
PyTorch武侠演义第一卷：初入江湖第7章：矿洞中的计算禁制空中湖 pytorch武侠演绎 pytorch 人工智能 python
第一卷：初入江湖第7章：矿洞中的计算禁制矿洞深处罗盘残件在接近矿洞时突然发热，指针疯狂旋转。"就是这里，"欧阳长老抚摸着洞壁上的计算图刻痕，“TensorFlow帮用静态图封印了矿脉。”林小码看到：幽蓝矿脉构成巨大的计算图结构水晶矿簇随呼吸节奏明灭（CUDA核心）矿道中流淌着数据光流（内存带宽）"小心！"大师突然拉回林小码。他刚才踩中的矿砖下陷，触发岩壁上的机关——数十道计算图锁链从四面八方射来！
数字人克隆中SyncTalk算法介绍与部署过程优秘智能UMI 人工智能 ubuntu
SyncTalk算法介绍SyncTalk合成同步的头部说话视频，采用三平面哈希表示来保持主体身份。它可以生成同步的嘴唇动作、面部表情和稳定的头部姿势，并恢复头发细节以创建高分辨率视频。部署在Linux中部署该项目，在Ubuntu18.04、Pytorch1.12.1和CUDA11.3上测试。gitclonehttps://github.com/ZiqiaoPeng/SyncTalk.gitcdSy
风格迁移（Style Transfer）
1.什么是风格迁移（StyleTransfer）：简单介绍风格迁移的概念，指的是将一张图像的内容与另一张图像的艺术风格结合起来，从而生成一个新的图像。例如，将一张风景图像的内容与一幅著名艺术作品（如梵高的《星夜》）的风格结合。应用场景：风格迁移常用于图像生成、艺术创作和增强现实等领域。目标：本文将讲解如何使用PyTorch和VGG19模型实现风格迁移，并展示其核心代码。2.风格迁移的原理在这一部分
标签助手：基于LabelImg和YOLOv5的图像半自动标注工具伏容一Julia
标签助手：基于LabelImg和YOLOv5的图像半自动标注工具项目基础介绍标签助手（labelGo-Yolov5AutoLabelImg）是一个图形化的半自动图像注解工具，它结合了广受欢迎的图像标注工具LabelImg的力量与先进的目标检测框架YOLOv5。这个开源项目旨在简化数据集的标注过程，利用现有YOLOv5PyTorch模型实现快速的半自动化标注，极大地提高了标注效率。项目主要采用Pyt
【MMCV】MMCV安装与踩坑 Elendill Pyhton pytorch python mmcv
确认MMCV版本首先确认项目所需MMCV的版本是多少mmcv2.0版本的代码相比较于=2.0.0安装方法新创建一个conda环境安装pytorch：condainstallpytorchtorchvisiontorchaudiopytorch-cuda=11.8-cpytorch-cnvidia安装mim，这是openmm官方推出的用于安装他们旗下mm系列产品的安装器：pipinstall-Uop
基于Jetson Nano与PyTorch的无人机实时目标跟踪系统搭建指南
引言：边缘计算赋能智能监控在AIoT时代，将深度学习模型部署到嵌入式设备已成为行业刚需。本文将手把手指导读者在NVIDIAJetsonNano（4GB版本）开发板上，构建基于YOLOv5+SORT算法的实时目标跟踪系统，集成无人机控制与地面站监控界面，最终打造低功耗智能监控设备。通过本项目，读者将掌握：嵌入式端模型优化与部署技巧；多目标跟踪算法工程化实现；无人机-地面站协同控制架构；边缘计算场景下
【语义分割专栏】4：deeplab系列实战篇(附上完整可运行的代码pytorch) fouen 语义分割 pytorch 人工智能 python 计算机视觉深度学习
文章目录前言Deeplab系列全流程代码模型搭建(model)backbone的搭建Deeplabv1Deeplabv2Deeplabv3Deeplabv3+数据处理(dataloader)评价指标(metric)训练流程(train)模型测试(test)效果图结语前言Deeplab系列原理篇讲解：【语义分割专栏】4：deeplab系列原理篇_deeplab系列详解-CSDN博客代码地址，下载可复
pytorch学习笔记-自定义卷积墨染枫深度学习 pytorch 学习笔记
未完结的草稿———！大概是准备整合一下常见的层，整合完感觉就可以进行搭建了（还没进行到这一步所以不太确定版）（ps我将在完结这一篇的时候删除上面的小字and二编一下整篇文章的结构，如果看到了这部分文字也是很有缘分了/doge这一部分感觉也没啥好说的==也就是reshape部分值得注意一下？剩下的感觉就是了解一下用法就可以importtorchimporttorch.nnasnnimporttorc
PyTorch武侠演义第一卷：初入江湖第5章：玉如意的秘密
第一卷：初入江湖第5章：玉如意的秘密百年秘辛藏经阁最深处，大师掀开尘封的《门派大事记》，指向一幅泛黄的画卷：“看，这就是百年前的优化器长老——欧阳调参。”画中人手持玉如意，面前悬浮着九个水晶球。林小码凑近细看，发现如意上刻着「lr=0.001」。“当年TensorFlow帮为何要盗损失玉佩？”大师叹息：“因为这块玉佩，正是控制玉如意能量的钥匙…”突然，书架后传来机关转动的咔嗒声。一道暗门缓缓打开，
使用PyTorch实现目标检测与跟踪认真写代码i pytorch 目标检测人工智能 Python
目标检测与跟踪是计算机视觉领域中的重要任务，它可以帮助我们在图像或视频中准确地定位和跟踪特定物体。PyTorch是一个流行的深度学习框架，提供了强大的工具和库，可以用于目标检测与跟踪的实现。本文将详细介绍如何使用PyTorch实现目标检测与跟踪，并提供相应的源代码。安装PyTorch和相关依赖首先，我们需要安装PyTorch和其他必要的依赖项。你可以通过以下命令使用pip安装PyTorch：pip
Pytorch 自定义损失函数 DeniuHe Pytorch
自定义HingeLossclassMyHingeLoss(torch.nn.Module):#不要忘记继承Moduledef__init__(self):super(MyHingeLoss,self).__init__()defforward(self,output,target):"""output和target都是1-D张量,换句话说,每个样例的返回是一个标量."""hinge_loss=1-
Pytorch实现目标检测
importosimportrandomimportpandasaspdimportnumpyasnpimportcv2fromsklearn.model_selectionimporttrain_test_splitimporttorchfromtorch.utils.dataimportDataset,DataLoaderimporttorch.nnasnnimporttorch.nn.fun
解决TensorBoard报错“log_dir is not a directory“的完整指南 SEVEN是7 tensorflow python 深度学习
在使用PyTorch的TensorBoard进行训练可视化时，许多开发者会遇到FailedPreconditionError:./文件名isnotadirectory的错误。本文将深入分析这个问题的根源，并提供完整的解决方案，特别是针对中文路径这一常见但容易被忽视的问题。问题一（目录确实存在的情况下）：路径中包含中文解决：更改文件名为正确的命名格式（注意：连模型的文件名也不要用中文，确保绝对路径全
Pytorch混合精度训练最佳实践贝塔西塔工程经验 pytorch 人工智能深度学习混合精度模型加速
混合精度训练（MixedPrecisionTraining）是一种通过结合单精度（FP32）和半精度（FP16/FP8）计算来加速训练、减少显存占用的技术。它在保持模型精度的同时，通常能带来2-3倍的训练速度提升，并减少约50%的显存使用，是平衡训练效率与数值稳定性的核心技术，尤其在大模型训练中不可或缺。以下从GradScaler底层逻辑、避坑技巧（含NaN解决方案）、PyTorchLightni
Pytorch自定义优化器最佳实践
在PyTorch中，自定义优化器需要遵循特定的规范以兼容PyTorch的训练流程。下面从核心方法、closure的作用，到Ranger优化器的实现，逐步展开说明。一、PyTorch自定义优化器的必要方法自定义优化器必须继承torch.optim.Optimizer，并实现以下核心方法：init(self,params,defaults)作用：初始化优化器，定义超参数（如学习率、动量等），并为参数组
PytorchLightning最佳实践基础篇贝塔西塔工程经验 pytorch Lightning 深度学习编程框架
PyTorchLightning（简称PL）是一个建立在PyTorch之上的高层框架，核心目标是剥离工程代码与研究逻辑，让研究者专注于模型设计和实验思路，而非训练循环、分布式配置、日志管理等重复性工程工作。本文从基础到进阶，全面介绍其功能、核心组件、封装逻辑及最佳实践。一、PyTorchLightning核心价值原生PyTorch训练代码中，大量精力被消耗在：手动编写训练/验证循环（epoch、b
Linux指令&&ros学习&&python深度学习&&bug学习笔记起个别名 Linux ROS Python
##这个文件是关于ros、linux指令，pytorch、python、onnx和相关problem的一些笔记###ROS&&linux**find:在当前路径或指定的路径下递归地搜索文件或目录，并可以根据不同的条件进行过滤和匹配。**```find-name*.pyfind/home/dai/bev_lane_det-main-namemodelsfind/home/dai/bev_lane_d
零基础完整版入门经典深度学习时间序列预测项目实战+最新前沿时间序列预测模型代码讲解学习整理（附完整可运行代码） OverOnEarth 时间序列预测项目实战深度学习学习人工智能
专栏内容本专栏主要整理了作者在时间序列预测领域内的一些学习思路与代码整理，帮助大家在初进入此领域时，可以快速掌握代码进行实战操作，对代码的操作再结合论文阅读肯定是上升更快嘛，作者也愿意和大家一起讨论进步，下面的内容会逐步更新，作者主页的资源列也会放出一些可下载的资源供大家参考学习噢。一、LSTM时间序列预测完整代码示例学习分析（pytorch框架）精选试读文章二、LSTM多变量输入实现多步预测完整
第十四章:AI的数据“集装箱”：彻底搞懂Tensor的Batch与维度爱分享的飘哥 AI新纪元：120日觉醒计划 Tensor PyTorch BatchSize 数据处理 AI基础深度学习教程
AI数据集中箱前言：为什么AI从不“零售”，总是“批发”？1：Batch（批次）——GPU的“灵魂伴侣”1.1单个处理vs.批量处理：CPU与GPU的思维差异1.2DataLoader：PyTorch的“自动化装箱员”2：维度的语言——破译[B,L,D]的含义2.1[L,D]：一个句子的“二维画像”2.2[B,L,D]：一批句子的“三维魔方”2.3用代码直观感受维度的增加3：追踪Tensor的“变
PyTorch中实现早停机制（EarlyStopping）附代码自信的小螺丝钉 AI知识 pytorch python 人工智能 AI 深度学习
1.核心目的当模型在验证集上的性能不再提升时，提前终止训练防止过拟合，节省计算资源2.实现方法监控验证集指标（如损失、准确率），设置耐心值（Patience）3.代码：classEarlyStopping:def__init__(self,patience=10,delta=0):"""EarlystoppingArgs:patience:int,numberofepochstowaitbefor
【已解决】YOLO11模型转wts时报错:PytorchStreamReader failed reading zip archive lxmyzzs bug 人工智能 python 计算机视觉目标检测神经网络深度学习
问题：在把训练好的新YOLO11s模型转wts文件时报错，具体信息如下图（PytorchStreamReaderfailedreadingziparchive:failedfindingcentraldirectory）解决：新老版本pytorch之间的兼容问题，改动一下生成wts文件即可。代码帖在下面。importsys#noqa:F401importargparseimportosimport
Pytorch实现细节解析：Transformer模型的Encoder与Decoder逐行代码讲解 lazycatlove pytorch transformer 人工智能
文章目录摘要一、Transformer1.1为什么要使用attention1.2Transformer的优点二、Transformer模型Encoder和Decoder原理讲解与其Pytorch逐行实现2.1wordembedding2.2单词索引构成源句子和目标句子2.3构建positionembedding2.4构造encoder的self-attentionmask2.5构造intra-at
Transformer Masked loss原理精讲及其PyTorch逐行实现
MaskedLoss的核心原理是：在计算损失函数时，只考虑真实有意义的词元（token），而忽略掉为了数据对齐而填充的无意义的填充词元（paddingtoken）。这是重要的技术，可以确保模型专注于学习有意义的任务，并得到一个正确的性能评估。1.原理精讲为什么需要MaskedLoss？在训练神经网络时，我们通常会用一个批次（batch）的数据进行训练，而不是一次只用一个样本。对于自然语言处理任务，
Transformer模型Decoder原理精讲及其PyTorch逐行实现老鱼说AI transformer pytorch 深度学习人工智能学习 python
原理：Decoder的核心是一个自回归(Auto-regressive)的生成器。它的任务是在给定源序列的编码表示(encoder_outputs)和已生成的目标序列部分(y_1,...,y_{t-1})的条件下，预测出下一个词y_t的概率分布。一个标准的DecoderLayer包含三个核心子层：1.带掩码的多头自注意力(MaskedMulti-HeadSelf-Attention):用于处理已生
2025暑期—07YOLO-YOLOV11 宇称不守恒4.0 人工智能图像处理 YOLO 深度学习人工智能
安装的环境包括YoloV11，torch2.32.4Clip1.0D2LOpenCV4.12等安装1Conda环境安装YOLOcondacreate--prefix=D:/YOLO11/yolo11_envpython=3.10condaactivateD:\YOLO11\yolo11_envPytorch网站确定condainstallpytorch==2.3.0torchvision==0.1
PyTorch中的词嵌入层(nn.Embedding)详解与实践指南慕婉0307 自然语言处理 pytorch embedding 人工智能
一、词嵌入(WordEmbedding)简介词嵌入是自然语言处理(NLP)中的一项核心技术，它将离散的词语映射到连续的向量空间中。通过词嵌入，语义相似的词语在向量空间中的位置也会相近。为什么需要词嵌入？解决维度灾难：传统one-hot编码维度等于词汇表大小，而词嵌入维度可自定义捕捉语义关系：通过向量空间中的距离反映词语间的语义关系迁移学习：预训练的词嵌入可以在不同任务间共享二、PyTorch中的n
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

基于孪生网络 (Siamese Network) 的人脸识别系统

换一种写法

你可能感兴趣的:(Pytorch,pytorch)