AdamW 是 Adam 优化算法的改进版本; warmup_steps:学习率热身的步数

AdamW 是 Adam 优化算法的改进版本

目录

    • AdamW 是 Adam 优化算法的改进版本
      • 1. `optimizer = torch.optim.AdamW(model.parameters(), lr=2e-4)`
      • 2. `num_epochs = 11`
      • 3. `total_steps = len(dataloader) * num_epochs`
    • warmup_steps:学习率热身的步数,学习率会从一个较小的值逐渐增加到初始学习率![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/8e05fc4dd0d742c7bfd5eb593c35ab2a.png)
      • 4. `scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)`

AdamW 是 Adam 优化算法的改进版本; warmup_steps:学习率热身的步数_第1张图片

1. optimizer = torch.optim.AdamW(model.parameters(), lr=2e-4)

这行代码的作用是创建一个优化器对象,该对象会在模型训练期间更新模型的参数。

  • torch.optim.AdamW:这是 PyTorch 提供的一个优化器类,它实现了 AdamW 优化算法。AdamW 是 Adam 优化算法的改进版本,主要改进在于加入了权重衰减(weight decay)机制,能够有效防止模型过拟合。
  • model.parameters():这是传入优化器的参数,它包含了模型中所有需要训练的参数。优化器会在训练时更新这些参数,从而让模型的性能得到提升。
  • lr=2e-4

你可能感兴趣的:(教学,2024大模型以及算力,2021,AI,python,算法,学习,transformer,深度学习,人工智能,自然语言处理,分布式)