吴师兄大模型

PyTorch 训练循环全攻略：从零到精通的深度学习秘籍

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！

系列文章目录

Pytorch基础篇

01-PyTorch新手必看：张量是什么？5 分钟教你快速创建张量！
02-张量运算真简单！PyTorch 数值计算操作完全指南
03-Numpy 还是 PyTorch？张量与 Numpy 的神奇转换技巧
04-揭秘数据处理神器：PyTorch 张量拼接与拆分实用技巧
05-深度学习从索引开始：PyTorch 张量索引与切片最全解析
06-张量形状任意改！PyTorch reshape、transpose 操作超详细教程
07-深入解读 PyTorch 张量运算：6 大核心函数全面解析，代码示例一步到位！
08-自动微分到底有多强？PyTorch 自动求导机制深度解析

Pytorch实战篇

09-从零手写线性回归模型：PyTorch 实现深度学习入门教程
10-PyTorch 框架实现线性回归：从数据预处理到模型训练全流程
11-PyTorch 框架实现逻辑回归：从数据预处理到模型训练全流程
12-PyTorch 框架实现多层感知机（MLP）：手写数字分类全流程详解
13-PyTorch 时间序列与信号处理全解析：从预测到生成
14-深度学习必备：PyTorch数据加载与预处理全解析
15-PyTorch实战：手把手教你完成MNIST手写数字识别任务
16-PyTorch 训练循环全攻略：从零到精通的深度学习秘籍

文章目录

Langchain系列文章目录
系列文章目录
前言
一、PyTorch 基础：从零认识这个框架
- 1.1 PyTorch 是什么？
- - 1.1.1 核心特点
  - 1.1.2 实际应用场景
- 1.2 张量：PyTorch 的“基本砖块”
- - 1.2.1 张量的基本操作
  - 1.2.2 张量的进阶用法
  - 1.2.3 常见问题及解决方案
- 1.3 自动求导：解放双手的 Autograd
- - 1.3.1 Autograd 怎么工作？
  - 1.3.2 梯度累加与清零
  - 1.3.3 应用场景与注意事项
二、PyTorch 训练循环：模型学习的关键
- 2.1 训练循环的基本流程
- - 2.1.1 用 DataLoader 加载批次数据
  - 2.1.2 前向传播：`output = model(input)`
  - 2.1.3 计算损失：`loss = criterion(output, target)`
  - 2.1.4 反向传播：`loss.backward()`
  - 2.1.5 更新参数：`optimizer.step()`
  - 2.1.6 重复跑多个 epoch
- 2.2 完整训练循环代码
- - 2.2.1 代码解析
  - 2.2.2 常见问题排查
- 2.3 进阶训练技巧
- - 2.3.1 学习率调度
  - 2.3.2 验证循环
  - - (1) 早停策略
    - (2) GPU 加速
三、总结

前言

想象一下，您正站在深度学习的起跑线上，手里握着 PyTorch 这个“魔法工具”。它简单到让新手也能快速上手，却强大到能驱动最前沿的 AI 研究。从自动驾驶到智能聊天机器人，PyTorch 的身影无处不在，尤其是它的训练循环（Training Loop），简直是模型从“零”到“英雄”的秘密武器。不管您是想在面试中惊艳考官，还是希望在项目中跑出一个靠谱的模型，这篇文章都将是您的最佳起点。我们将用最接地气的语言，带您从 PyTorch 的基础走进训练循环的核心，配上实打实的代码和实战经验。无论您是小白还是老手，这里总有让您眼前一亮的东西。准备好一起点燃学习的火花了吗？那就跟我来吧！

一、PyTorch 基础：从零认识这个框架

PyTorch 就像深度学习的“瑞士军刀”，既简单又强大。咱们从它的基本概念入手，逐步建立起对这个框架的系统理解。

1.1 PyTorch 是什么？

PyTorch 是一个开源的深度学习框架，由 Facebook 的 AI 研究团队开发，以 Python 为核心语言。它的设计目标是让开发者能快速上手，同时保持足够的灵活性，满足从实验到生产的需求。

1.1.1 核心特点

PyTorch 的魅力在于它的几个关键特点，咱们一条条来看：

动态计算图（Dynamic Computation Graph）
PyTorch 的计算图是动态生成的，边写代码边运行（eager execution）。这意味着您可以随时调整模型结构，调试起来特别方便。相比之下，像 TensorFlow 1.x 那样的静态计算图需要先定义好再运行，灵活性差了不少。
张量计算（Tensor Computation）
PyTorch 提供类似 NumPy 的多维数组操作，核心数据结构叫张量（Tensor）。但它比 NumPy 更牛，支持 GPU 加速，能大幅提升计算速度。
自动求导（Autograd）
PyTorch 内置了一个自动微分引擎，叫做 Autograd。只要您定义好前向计算，它就能自动算出梯度，极大简化了反向传播的实现。
模块化设计（nn.Module）
通过 nn.Module，您可以像搭积木一样定义神经网络的层和逻辑，简单又直观。

1.1.2 实际应用场景

PyTorch 在很多地方都大放异彩：

学术研究：快速实现论文里的新算法，比如 Transformer 或 GAN。
工业应用：开发图像分类、文本生成、语音识别等项目。
原型开发：需要频繁实验时，PyTorch 的动态特性让迭代变得轻松。

案例：假设您想用 PyTorch 做一个手写数字识别的项目，可以用它的预训练模型快速微调，在小数据集上也能达到不错的准确率。

1.2 张量：PyTorch 的“基本砖块”

张量（Tensor）是 PyTorch 的核心数据结构，简单来说就是多维数组，但功能远超普通的数组。它是所有计算的基础，理解张量操作是入门的第一步。

1.2.1 张量的基本操作

咱们从创建和操作张量开始，边讲边上代码：

创建张量
张量可以用多种方式生成，比如从列表、特定函数，或者随机数：

import torch

# 从列表创建
a = torch.tensor([1, 2, 3])  # 一维张量
print(a)  # 输出 tensor([1, 2, 3])

# 创建全零或全一张量
b = torch.zeros(2, 3)  # 2x3 全零张量
c = torch.ones(2, 3)   # 2x3 全一张量

# 创建随机张量
d = torch.rand(2, 2)   # 2x2 随机张量（0到1之间）

基本运算
张量支持加减乘除、矩阵运算等常见操作：

# 元素逐个加法
e = a + 2  # tensor([3, 4, 5])

# 矩阵乘法（需形状匹配）
f = torch.tensor([[1, 2], [3, 4]])
g = torch.tensor([[5, 6], [7, 8]])
h = torch.mm(f, g)  # 结果是 2x2 矩阵
print(h)  # tensor([[19, 22], [43, 50]])

形状调整
张量的形状可以灵活调整，适配模型需求：

i = torch.randn(4, 4)  # 4x4 随机张量
j = i.view(2, 8)      # 变成 2x8 张量
k = i.reshape(16)     # 变成一维张量

1.2.2 张量的进阶用法

张量还有些高级功能，特别适合深度学习：

GPU 加速
如果有显卡，可以把张量移到 GPU 上跑：

if torch.cuda.is_available():
    a = a.to('cuda')  # 移到 GPU
    print(a.device)   # 输出 cuda:0

自动求导
设置 requires_grad=True，PyTorch 会跟踪张量的梯度：

x = torch.tensor([2.0], requires_grad=True)
y = x ** 2
y.backward()  # 自动计算梯度
print(x.grad)  # 输出 4.0，因为 dy/dx = 2x，x=2 时为 4

1.2.3 常见问题及解决方案

问题 1：形状不匹配
- 现象：运算时出错，比如矩阵乘法报错。
- 排查：用 tensor.shape 检查形状，确保符合要求（比如 torch.mm 需要前者的列数等于后者的行数）。
- 解决：用 view() 或 reshape() 调整形状。
问题 2：忘记移到 GPU
- 现象：计算慢，或者报错“设备不一致”。
- 解决：统一设备，比如 model.to('cuda') 和 data.to('cuda')。

1.3 自动求导：解放双手的 Autograd

Autograd 是 PyTorch 的自动微分引擎，能自动计算梯度，是训练神经网络的“幕后英雄”。

1.3.1 Autograd 怎么工作？

原理
每次对张量做运算，PyTorch 会动态构建一个计算图，记录依赖关系。调用 backward() 时，它根据这个图自动算梯度。

简单例子
假设我们要优化 y = x^2，让 x 靠近 0：

x = torch.tensor([1.0], requires_grad=True)
y = x ** 2
y.backward()
print(x.grad)  # 输出 2.0，因为 dy/dx = 2x，x=1 时为 2

1.3.2 梯度累加与清零

梯度累加
PyTorch 的梯度默认是累加的，多次 backward() 会把梯度叠加：

x = torch.tensor([1.0], requires_grad=True)
y1 = x ** 2
y1.backward()  # 梯度 2.0
y2 = x ** 2
y2.backward()  # 梯度变成 4.0
print(x.grad)  # 输出 4.0

清零梯度
训练时通常需要清零，避免旧梯度干扰：

x.grad.zero_()  # 清零
y3 = x ** 2
y3.backward()
print(x.grad)  # 输出 2.0

1.3.3 应用场景与注意事项

应用：训练神经网络时，Autograd 自动算损失对参数的梯度，驱动模型优化。
注意：只有标量（单个数值）的张量才能直接调用 backward()，如果是向量，得指定 grad_tensors 或用 sum() 转成标量。

二、PyTorch 训练循环：模型学习的关键

训练循环是 PyTorch 的“心脏”，负责把数据喂给模型、计算损失、调整参数，让模型从“啥也不会”变成“聪明能干”。这一节，咱们从基础流程开始，逐步深入，带您全面掌握训练循环的每个环节。

2.1 训练循环的基本流程

训练循环的核心是让模型反复学习数据，逐步提升性能。咱们用一个简单的分类任务（比如手写数字识别）来拆解它的 6 个关键步骤。

2.1.1 用 DataLoader 加载批次数据

作用
数据是模型的“粮食”，但一次性喂太多模型“吃不下”，所以我们用 DataLoader 把数据分成小份（batch），一批批喂给模型。
操作步骤
- 定义一个数据集，比如继承 torch.utils.data.Dataset，包含数据和标签。
- 用 DataLoader 打包成批次，设置批次大小（batch_size）和是否打乱（shuffle）：
```
from torch.utils.data import DataLoader
dataset = MyDataset()  # 自定义数据集
loader = DataLoader(dataset, batch_size=32, shuffle=True)
```
应用案例
在 MNIST 数据集上，batch_size=32 意味着每次处理 32 张图片及其标签。
注意事项
- 打乱数据：shuffle=True 可以避免模型记住数据顺序，提升泛化能力。
- GPU 支持：如果用 GPU，记得把数据移过去：
```
input, target = input.to('cuda'), target.to('cuda')
```

2.1.2 前向传播：`output = model(input)`

作用
把数据输入模型，计算预测结果。这是模型“思考”的过程。

操作步骤

定义好模型后，直接调用 model(input)：

model = MyModel()  # 自定义模型
output = model(input)  # input 是批次数据

细节解析
- 输入形状：必须匹配模型的输入层，比如 CNN 通常要 [batch_size, channels, height, width]。
- 训练模式：调用 model.train()，激活 Dropout 和 BatchNorm 等训练行为。

2.1.3 计算损失：`loss = criterion(output, target)`

作用
用损失函数衡量预测结果和真实标签的差距，差距越大，模型越需要调整。

操作步骤

选择合适的损失函数，比如分类任务用交叉熵：

import torch.nn as nn
criterion = nn.CrossEntropyLoss()
loss = criterion(output, target)

应用案例
在多分类任务中，CrossEntropyLoss 会自动算预测概率和真实标签的交叉熵。
常见问题
- 形状不匹配：output 应为 [batch_size, num_classes]，target 为 [batch_size]。
- 误加 softmax：CrossEntropyLoss 自带 softmax，别手动加。

2.1.4 反向传播：`loss.backward()`

作用
根据损失自动计算每个参数的梯度，告诉模型“哪里错了”。
操作步骤
- 调用 loss.backward()，PyTorch 会自动算梯度并存到参数的 .grad 属性中。
细节解析
- 动态计算图：PyTorch 在前向传播时记下操作，反向传播时自动求导。
- 梯度累加：梯度默认累加，必须清零（见下一步）。

2.1.5 更新参数：`optimizer.step()`

作用
根据梯度调整参数，让损失变小，模型变“聪明”。

操作步骤

先清零梯度，再更新参数：

import torch.optim as optim
optimizer = optim.Adam(model.parameters(), lr=0.001)
optimizer.zero_grad()  # 清零梯度
loss.backward()
optimizer.step()       # 更新参数

为什么清零？
不清零，新梯度会加到旧梯度上，更新方向会乱。比如第一批梯度是 -4，第二批是 -3.2，不清零就变成 -7.2，步子迈得太大，走偏了。

2.1.6 重复跑多个 epoch

作用
一个 epoch 是把所有数据过一遍，通常跑多个 epoch 让模型充分学习。

操作步骤

外层循环控制 epoch，内层遍历 DataLoader：

for epoch in range(10):
    for input, target in loader:
        # 步骤 2-5

监控训练
- 每个 epoch 后打印 loss.item()，看损失是否下降。
- 如果不降，可能需要调学习率或检查数据。

2.2 完整训练循环代码

咱们把这些步骤串起来，看一个完整的例子：

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader

# 假设模型和数据集已定义
model = MyModel()
dataset = MyDataset()
loader = DataLoader(dataset, batch_size=32, shuffle=True)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练循环
model.train()  # 训练模式
for epoch in range(10):
    for input, target in loader:
        optimizer.zero_grad()    # 清零梯度
        output = model(input)    # 前向传播
        loss = criterion(output, target)  # 计算损失
        loss.backward()          # 反向传播
        optimizer.step()         # 更新参数
    print(f"Epoch {epoch}, Loss: {loss.item()}")

2.2.1 代码解析

model.train()：激活训练模式，确保 Dropout 和 BatchNorm 生效。
optimizer.zero_grad()：清零梯度，防止累加。
loss.item()：将损失转成 Python 数字，方便打印。

2.2.2 常见问题排查

Loss 不降
- 原因：学习率不合适（太大震荡，太小不动）、数据问题（标签错误）、模型太简单。
- 解决：调学习率（从 0.001 试到 0.0001）、检查数据预处理、加深模型。
内存不足
- 原因：batch_size 太大或模型太复杂。
- 解决：减小 batch_size（比如从 32 到 16），或用 torch.cuda.empty_cache() 清缓存。

2.3 进阶训练技巧

掌握基础后，咱们看看怎么优化训练效果。

2.3.1 学习率调度

作用
动态调整学习率，早期快收敛，后期细调整。

操作步骤

用 lr_scheduler 实现，比如每 5 个 epoch 减小学习率：

scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)
for epoch in range(10):
    # 训练循环
    scheduler.step()  # 学习率乘以 0.1

应用案例
训练 CNN 时，前期用大学习率快速下降，后期减小学习率避免震荡。

2.3.2 验证循环

作用
用验证集评估模型，防止过拟合。

操作步骤

在每个 epoch 后跑验证：

model.eval()  # 评估模式
with torch.no_grad():  # 关闭梯度计算
    val_loss = 0
    for val_input, val_target in val_loader:
        val_output = model(val_input)
        val_loss += criterion(val_output, val_target).item()
    print(f"Validation Loss: {val_loss / len(val_loader)}")

注意事项
- 用 model.eval() 和 torch.no_grad()，节省内存且不影响参数。

(1) 早停策略

作用
如果验证集 loss 连续上升，提前停止训练，避免过拟合。

实现

best_loss = float('inf')
patience = 3
counter = 0
for epoch in range(10):
    # 训练和验证
    if val_loss < best_loss:
        best_loss = val_loss
        counter = 0
    else:
        counter += 1
    if counter >= patience:
        print("Early stopping")
        break

(2) GPU 加速

作用
用 GPU 跑模型，加速训练，适合大数据和复杂模型。

实现

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
input, target = input.to(device), target.to(device)

注意
- 确保模型和数据在同一设备，否则会报错。

三、总结

学完这篇文章，您已经从 PyTorch 的“门外汉”变成了一个能跑模型的“实战派”。我们从基础到核心，解锁了 PyTorch 的关键技能，尤其是训练循环的精髓。以下是本文的精华总结，帮您牢牢记住重点：

PyTorch 是什么
PyTorch 是一个开源的深度学习框架，以动态计算图、张量计算和自动求导为核心。它简单易用又灵活强大，适合快速实验和工业应用，比如图像分类或文本生成。
张量操作
张量是 PyTorch 的基本单位，支持创建、运算和形状调整，还能跑在 GPU 上加速计算。通过 requires_grad=True，它还能为自动求导铺路。
自动求导（Autograd）
Autograd 是 PyTorch 的“智能助手”，自动计算梯度，解放了繁琐的反向传播计算。但别忘了清零梯度，否则累加会让结果跑偏。
训练循环全流程
训练循环是模型学习的关键，包含 6 大步骤：用 DataLoader 加载数据、前向传播算预测、用损失函数评估、反向传播求梯度、优化器更新参数，再跑多个 epoch。代码简单，但细节决定成败。
进阶优化
学习率调度、验证循环和早停策略能让训练更高效，GPU 加速则能大幅提升速度。这些技巧让您的模型不仅跑得快，还跑得好。

这篇文章就像一盏明灯，照亮了 PyTorch 和训练循环的学习之路。现在，您不仅能回答“PyTorch 是什么”，还能动手跑一个模型，甚至优化它的性能。别停在这里，快去实践吧，让您的代码在 PyTorch 的舞台上大放光芒！如果有问题，欢迎留言，咱们一起进步！

你可能感兴趣的:(PyTorch,深度学习,pytorch,人工智能,训练循环,LLM,大模型,python)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
分支和循环（下） tryxr 服务器运维
写⼀个猜数字游戏游戏要求：1.电脑⾃动⽣成1~100的随机数2.玩家猜数字，猜数字的过程中，根据猜测数据的⼤⼩给出⼤了或⼩了的反馈，直到猜对，游戏结束1.随机数生成要想完成猜数字游戏，⾸先得产⽣随机数，那怎么产⽣随机数呢？randC语⾔提供了⼀个函数叫rand，这函数是可以⽣成随机数的，函数原型如下所⽰：intrand(void);rand函数会返回⼀个伪随机数，这个随机数的范围是在0~RAND_
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
善吃五色五味，女人更妖娆，想漂亮享受健康美味吃起来余老师讲健康
善吃五色五味，女人更妖娆我们所说的五色五味是指具有赤、青、黄、白、黑五种颜色以及酸、辛、甘、苦、咸五种味道的食物。其实五味和五色与人体的五脏对应，养生必养五脏，通过五味、五色的食物可以调养人的容颜。一、赤色、苦味入心——养颜，面色红润有句话这么说，“会吃的女人更漂亮，贪吃的女人变糟粕。”经过科学、合理搭配的五色五味饮食，就是最天然、最安全的美容药方。赤色——抗衰老，增强免疫力，改善血液循环。赤色即
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
D124:如何训练独立思考力？大栗子_
当我们要判断一个理论或者思想是否正确，需要有三个层次，分别是体验、解释和分析。首先看体验。很多时候，我们会相信“听上去、感觉是对的”的事情。我们之前讲的太空笔的故事之所以大多数人都认为是对的，就是有一些看似真实的关键词，比如美国，NASA，设计等，这些词看起来非常权威，但是离我们又遥远，这时候我们的大脑就会放松警惕了。于是，我们毫不犹豫就接受了。说到这里，你有没有发现之前的电视广告中的各种高让我们
社交电商平台有哪些？社交电商怎么做？氧惠评测
社交电商平台有很多，以下是一些常见的社交电商平台：氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。珊珊导师氧惠邀请码888999，注册送万元推广大礼包，教你如何1年做到百万团队。氧惠app：氧惠ap
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

PyTorch 训练循环全攻略：从零到精通的深度学习秘籍

Langchain系列文章目录

系列文章目录

文章目录

前言

一、PyTorch 基础：从零认识这个框架

1.1 PyTorch 是什么？

1.1.1 核心特点

1.1.2 实际应用场景

1.2 张量：PyTorch 的“基本砖块”

1.2.1 张量的基本操作

1.2.2 张量的进阶用法

1.2.3 常见问题及解决方案

1.3 自动求导：解放双手的 Autograd

1.3.1 Autograd 怎么工作？

1.3.2 梯度累加与清零

1.3.3 应用场景与注意事项

二、PyTorch 训练循环：模型学习的关键

2.1 训练循环的基本流程

2.1.1 用 DataLoader 加载批次数据

2.1.2 前向传播：output = model(input)

2.1.3 计算损失：loss = criterion(output, target)

2.1.4 反向传播：loss.backward()

2.1.5 更新参数：optimizer.step()

2.1.6 重复跑多个 epoch

2.2 完整训练循环代码

2.2.1 代码解析

2.2.2 常见问题排查

2.3 进阶训练技巧

2.3.1 学习率调度

2.3.2 验证循环

(1) 早停策略

(2) GPU 加速

三、总结

你可能感兴趣的:(PyTorch,深度学习,pytorch,人工智能,训练循环,LLM,大模型,python)

2.1.2 前向传播：`output = model(input)`

2.1.3 计算损失：`loss = criterion(output, target)`

2.1.4 反向传播：`loss.backward()`

2.1.5 更新参数：`optimizer.step()`