AI仙人掌

Off-Policy策略演员评论家算法SAC详解：python从零实现

引言

软演员评论家（SAC）是一种最先进的Off-Policy策略演员评论家算法，专为连续动作空间设计。它在 DDPG、TD3 的基础上进行了显著改进，并引入了最大熵强化学习的原则。其目标是学习一种策略，不仅最大化预期累积奖励，还要最大化策略的熵。这种添加鼓励了探索，提高了对噪声的鲁棒性，通常与之前的 DDPG 和 TD3 方法相比，能够实现更快、更稳定的学习。

SAC 是什么？

SAC 学习三个主要组件（通常使用五个网络实现）：

演员（ $\pi(a|s; \theta)$ ）：一个随机策略网络，将状态映射到动作上的概率分布（在连续控制中通常为高斯分布）。由 $\theta$ 参数化。
评论家（双 Q 网络 $\phi_1), Q(s, a; \phi_2)$ ）：两个独立的 Q 值网络，估计软动作值（预期回报加上熵）。使用两个评论家有助于减少 Q 值高估。由 $\phi_1, \phi_2$ 参数化。
熵温度（ $\alpha$ ）：一个正系数，用于权衡目标中熵项的重要性。这可以是固定的超参数，也可以自动调整。

与 DDPG 类似，它采用：

回放缓冲区：用于离策略学习和样本效率。
目标网络：维护评论家的缓慢更新目标网络，以稳定 Q 学习目标。
软更新：对目标网络使用缓慢、平滑的更新。

关键思想：最大熵强化学习

标准强化学习旨在最大化预期折扣奖励总和： $\mathbb{E}[\sum_t \gamma^t R(s_t, a_t)]$ 。最大熵强化学习修改了这一目标，在每一步加入策略的熵：
$J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^T \gamma^t \left( R(s_t, a_t) + \alpha H(\pi(\cdot|s_t)) \right) \right]$
其中 $H(\pi(\cdot|s_t))$ 是状态 $s_t$ 下策略分布的熵，而 $\alpha$ 是控制奖励最大化和熵最大化之间权衡的温度参数。

最大化熵的好处：

更好的探索：代理被激励去探索更多样化的动作，可能更快地发现更好的解决方案，避免过早收敛。
鲁棒性：高熵策略对环境或执行中的扰动和噪声更具鲁棒性。
组合性：通过最大熵强化学习学习的策略有时可以更轻松地组合用于层次化任务。

SAC 的应用场景和方法

SAC 是连续控制任务中的领先算法，广泛应用于：

机器人学：特别适用于在模拟（MuJoCo、PyBullet）和现实世界中学习复杂的运动和操作技能。
连续控制基准测试：在标准基准测试（如摆动、跳跃、行走、模拟人类等）中常常取得顶级性能。
自主系统：需要平滑、连续控制动作的领域。

当满足以下条件时，SAC 是合适的选择：

动作空间是连续的。
需要高样本效率（离策略）。
探索和鲁棒性很重要。
稳定的学习优先于可能更快但更脆弱的方法。

SAC 的数学基础

最大熵目标

如前所述，目标是找到一个策略 $\pi$ ，最大化：
$J(\pi) = \sum_{t=0}^T \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} [\gamma^t (R(s_t, a_t) + \alpha H(\pi(\cdot|s_t)))]$

软状态值函数（ $V_{soft}$ ）

在这个框架中，值函数也被修改（“软化”）以考虑预期的未来熵。软状态值函数通过 Bellman 方程隐式定义：
$V_{soft}^{\pi}(s) = \mathbb{E}_{a \sim \pi(\cdot|s)} [ Q_{soft}^{\pi}(s,a) - \alpha \log \pi(a|s) ]$
它表示从状态 $s$ 开始的预期回报加上预期未来熵。

软动作值函数（ $Q_{soft}$ ）

软动作值函数满足软 Bellman 方程：
$Q_{soft}^{\pi}(s,a) = R(s,a) + \gamma \mathbb{E}_{s' \sim P} [ V_{soft}^{\pi}(s') ]$
将 $V_{soft}^{\pi}(s')$ 的定义代入 $Q_{soft}^{\pi}$ 方程中，得到训练评论家时使用的 Bellman 备份算符：
$Q_{soft}^{\pi}(s,a) \approx R(s,a) + \gamma \mathbb{E}_{s' \sim P, a' \sim \pi(\cdot|s')} [ Q_{soft}^{\pi}(s', a') - \alpha \log \pi(a'|s') ]$

软 Bellman 备份（评论家更新）

评论家网络（ $Q_{\phi_1}, Q_{\phi_2}$ ）通过最小化软 Bellman 残差进行训练，使用从回放缓冲区 $\mathcal{D}$ 采样的样本 $(s, a, r, s^{'}, d)$ 。目标值 $y (r, s^{'}, d)$ 为：
$\gamma (1-d) \left( \min_{i=1,2} Q'_{\phi'_i}(s', a') - \alpha \log \pi_ heta(a'|s') \right), \quad \text{其中 } a' \sim \pi_ heta(\cdot|s')$
注意：

$Q'_{\phi'_i}$ 是目标评论家网络。
$a^{'}$ 从当前策略网络 $\pi_ heta$ 采样（使用重参数化技巧）。
取两个目标 Q 值的最小值（剪辑双 Q 学习）。
$\alpha$ 是当前的熵温度。

每个评论家 $i = 1, 2$ 的损失为：
$L(\phi_i) = \mathbb{E}_{(s,a,r,s',d) \sim \mathcal{D}} [ (Q_{\phi_i}(s,a) - y(r, s', d))^2 ]$

策略改进（演员更新）

演员 $\pi_ heta$ 被更新以最大化预期的软值，这相当于最小化以下损失：
$\mathbb{E}_{s \sim \mathcal{D}, a \sim \pi_ heta(\cdot|s)} [ \alpha \log \pi_ heta(a|s) - \min_{i=1,2} Q_{\phi_i}(s, a) ]$
这鼓励策略输出具有高软 Q 值和高熵（低负对数概率）的动作 $a$ 。

重参数化技巧

为使评论家的 Q 值估计的梯度能够回流到演员网络参数 $\theta$ ，当最小化 $L(\theta)$ 时，采样过程 $\sim \pi_ heta(\cdot|s)$ 通过重参数化技巧变得可微分。对于高斯策略 $\pi_ heta(\cdot|s) = \mathcal{N}(\mu_ heta(s), \sigma_ heta(s))$ ，动作采样为：
$anh(\mu_ heta(s) + \sigma_ heta(s) \cdot \xi), \quad \xi \sim \mathcal{N}(0, I)$
演员网络输出 $\mu_ heta(s)$ 和 $\log \sigma_ heta(s)$ 。$ anh$ 函数将输出压缩到有界范围（例如，[-1, 1]），在计算用于演员和评论家目标更新的对数概率 $\log \pi_ heta(a|s)$ 时需要一个校正项。

熵温度（ $\alpha$ ）调整

而不是固定 $\alpha$ ，可以通过定义目标熵 $\bar{H}$ （通常启发式设置，例如 $-\text{dim}(\mathcal{A})$ ）并优化 $\alpha$ 使其匹配策略的平均熵来自动调整。 $\alpha$ 的损失（通过其对数 $\log \alpha$ 优化）为：
$L(\log \alpha) = \mathbb{E}_{a_t \sim \pi_ heta} [ -\log \alpha ( \log \pi_ heta(a_t|s_t) + \bar{H} )^{\text{分离}} ]$
通过梯度下降最小化该损失会调整 $\alpha$ ：如果熵太低， $\alpha$ 增加；如果熵太高， $\alpha$ 减少。

双 Q 学习和目标网络

双 Q 学习：使用两个评论家网络（ $Q_1, Q_2$ ）并取其目标值的最小值，有助于减少 Q 学习中常见的高估偏差。
目标网络：使用单独的目标网络（ $Q'_1, Q'_2$ ）计算 Bellman 目标 $y$ 。它们通过软更新（ $\tau$ ）缓慢地向主评论家网络更新。

SAC 的逐步解释

初始化：演员网络 $\pi_ heta$ ，两个评论家网络 $Q_{\phi_1}, Q_{\phi_2}$ 。
初始化：两个目标评论家网络 $Q'_{\phi'_1}, Q'_{\phi'_2}$ ，其中 $\phi'_1 \leftarrow \phi_1$ ， $\phi'_2 \leftarrow \phi_2$ 。
初始化：回放缓冲区 $\mathcal{D}$ 。
初始化：熵温度 $\alpha$ （可以固定或通过 $\log \alpha$ 自动调整）；如果是自动调整，初始化目标熵 $\bar{H}$ 和 $\log \alpha$ 优化器。
初始化：演员和评论家优化器。
对于每个回合：
a. 重置环境，获取初始状态 $s_0$ 。
b. 对于每一步 $t$ ：
i. 从 $\pi_ heta(\cdot|s_t)$ 采样动作 $a_t$ （使用重参数化技巧，如果需要只添加噪声——随机策略进行探索）。
ii. 执行 $a_t$ ，观察奖励 $r_t$ ，下一个状态 $s_{t+1}$ ，完成标志 $d_t$ 。
iii. 将过渡 $s_t, a_t, r_t, s_{t+1}, d_t)$ 存储到 $\mathcal{D}$ 中。
iv. 更新步骤（在收集足够数据后，例如每一步或每隔几步）：
1. 从 $\mathcal{D}$ 中采样一个大小为 $N$ 的小批量过渡。
2. 更新评论家：
- 使用目标评论家、当前演员和 $\alpha$ 计算目标值 $y_j$ 。
- 通过梯度下降最小化均方误差损失 $L(\phi_1)$ 和 $L(\phi_2)$ 。
3. 更新演员：
- 使用当前评论家和当前演员计算演员损失 $L(\theta)$ 。
- 通过梯度下降最小化 $L(\theta)$ 。
4. 更新 Alpha（如果调整）：
- 计算 alpha 损失 $L(\log \alpha)$ 。
- 通过梯度下降最小化 $L(\log \alpha)$ 。
5. 更新目标评论家：执行软更新：
$\phi'_i \leftarrow \tau \phi_i + (1 - \tau) \phi'_i$ 对于 $i = 1, 2$ 。
v. $s_t \leftarrow s_{t+1}$ 。
vi. 如果 $d_t$ ，则中断回合。
重复：直到收敛或达到最大回合数/步骤数。

SAC 的关键组件

随机演员网络（策略）

将状态 $s$ 映射到动作 $a$ 的分布参数（例如，均值、对数标准差）。
被训练以最大化软 Q 值和熵。
使用重参数化技巧实现可微分性。

评论家网络（双 Q 网络）

两个网络（ $Q_1, Q_2$ ）估计软动作值 $Q_{soft}(s,a)$ 。
使用软 Bellman 目标进行训练。

目标评论家网络

缓慢更新的副本（ $Q'_1, Q'_2$ ），用于计算稳定的 Bellman 目标。

熵温度（ $\alpha$ ）

平衡奖励和熵最大化。可以固定或自动调整。

回放缓冲区

标准离策略缓冲区，用于存储转换。

软目标更新

缓慢将主评论家参数混合到目标评论家参数中（ $\tau$ ）。

超参数

缓冲区大小、批量大小、学习率（演员、评论家、alpha）。
目标更新率（ $\tau$ ）、折扣（ $\gamma$ ）。
初始 $\alpha$ 和目标熵 $\bar{H}$ （如果调整 $\alpha$ ）。
网络架构。

实践示例：摆动环境

我们使用 Gymnasium 中的 Pendulum-v1 来演示 SAC 在连续动作空间中的应用。需要 gymnasium。

为什么选择摆动环境？（连续动作和探索）

SAC 非常适合具有连续动作空间的环境，如 Pendulum-v1。虽然网格世界提供离散动作（上、下、左、右），但 SAC 在需要学习精细控制时表现出色。Pendulum-v1 环境是一个标准基准测试，非常适合演示 SAC 的能力，因为它：

连续状态：[cos(theta), sin(theta), theta_dot] 表示摆的角度和角速度。
连续动作：施加在摆关节上的扭矩。这是一个通常在 [-2.0, 2.0] 范围内的单个连续值。
探索的强调：SAC 通过将熵最大化与奖励相结合，固有地鼓励探索。这对于 Pendulum-v1 环境特别有用，因为找到最优控制策略通常需要尝试不同的扭矩级别并观察结果动态。连续动作空间为代理提供了广泛的可能行为以进行探索。

使用此环境可以正确演示 SAC 对连续动作的处理及其探索策略。需要 gymnasium 库，与参考 DQN 笔记本中“仅基本库”约束略有不同，因为 SAC 本质上是为连续动作空间设计的，探索是关键。

设置环境

导入库，包括 gymnasium。

# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
import random
import math
from collections import namedtuple, deque
from itertools import count
from typing import List, Tuple, Dict, Optional, Callable, Any
import copy

# 导入 PyTorch
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.distributions import Normal # 使用正态分布处理连续动作

torch.set_default_tensor_type(torch.FloatTensor)  # 设置默认为 float32

# 导入 Gymnasium
try:
    import gymnasium as gym
except ImportError:
    print("未找到 Gymnasium。请使用 'pip install gymnasium' 或 'pip install gym[classic_control]' 安装。")
    gym = None

# 设置设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"使用设备：{device}")

# 设置随机种子
seed = 42
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(seed)

%matplotlib inline

使用设备：cpu


c:\Users\faree\Desktop\all-rl-algorithms\.venv-all-rl-algos\lib\site-packages\torch\__init__.py:1236: UserWarning: torch.set_default_tensor_type() 自 PyTorch 2.1 起已弃用，请改用 torch.set_default_dtype() 和 torch.set_default_device()。 (在 C:\actions-runner\_work\pytorch\pytorch\pytorch\torch\csrc\tensor\python_tensor.cpp:436 触发内部)
  _C._set_default_tensor_type(t)

创建连续环境（Gymnasium）

实例化摆动环境。

# 实例化摆动环境
if gym is not None:
    try:
        env = gym.make('Pendulum-v1')
        env.reset(seed=seed)
        env.action_space.seed(seed)

        n_observations_sac = env.observation_space.shape[0]
        n_actions_sac = env.action_space.shape[0]
        action_low_sac = env.action_space.low[0]
        action_high_sac = env.action_space.high[0]

        print(f"摆动环境：")
        print(f"状态维度：{n_observations_sac}")
        print(f"动作维度：{n_actions_sac}")
        print(f"动作下限：{action_low_sac}")
        print(f"动作上限：{action_high_sac}")
    except Exception as e:
        print(f"创建 Gymnasium 环境时出错：{e}")
        n_observations_sac = 3
        n_actions_sac = 1
        action_low_sac = -2.0
        action_high_sac = 2.0
        env = None
else:
    print("Gymnasium 不可用。无法创建摆动环境。")
    n_observations_sac = 3
    n_actions_sac = 1
    action_low_sac = -2.0
    action_high_sac = 2.0
    env = None

摆动环境：
状态维度：3
动作维度：1
动作下限：-2.0
动作上限：2.0

实现 SAC 算法

定义 SAC 组件：演员、评论家、回放缓冲区、更新逻辑。

定义演员网络（高斯策略）

输出均值和对数标准差，用于高斯分布。动作通过 tanh 压缩，并修正对数概率。

LOG_STD_MAX = 2
LOG_STD_MIN = -20
EPSILON = 1e-6 # 用于数值稳定的小数

class ActorNetworkSAC(nn.Module):
    """ SAC 的随机高斯演员网络 """
    def __init__(self, n_observations: int, n_actions: int, action_high_bound: float):
        super(ActorNetworkSAC, self).__init__()
        self.action_high_bound = action_high_bound
        # 架构（根据需要调整复杂度）
        self.layer1 = nn.Linear(n_observations, 256)
        self.layer2 = nn.Linear(256, 256)
        self.mean_layer = nn.Linear(256, n_actions) # 输出均值
        self.log_std_layer = nn.Linear(256, n_actions) # 输出对数标准差

    def forward(self, state: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
        """
        输出动作及其对数概率，使用重参数化和 tanh 压缩。
        参数：
        - state (torch.Tensor)：输入状态。
        返回：
        - Tuple[torch.Tensor, torch.Tensor]：
            - action: 从策略中采样的压缩动作。
            - log_prob: 压缩动作的对数概率。
        """
        # 检查状态是否为单个样本并添加批量维度（如果需要）
        add_batch_dim = False
        if state.dim() == 1:
            state = state.unsqueeze(0)  # 添加批量维度
            add_batch_dim = True
            
        x = F.relu(self.layer1(state))
        x = F.relu(self.layer2(x))
        
        mean = self.mean_layer(x)
        log_std = self.log_std_layer(x)
        # 为稳定性限制 log_std
        log_std = torch.clamp(log_std, LOG_STD_MIN, LOG_STD_MAX)
        std = torch.exp(log_std)

        # 创建高斯分布
        normal_dist = Normal(mean, std)

        # 重参数化技巧：采样预压缩动作
        # 使用 rsample() 进行可微分采样
        z = normal_dist.rsample()
        
        # 应用 tanh 压缩以获得有界动作
        action = torch.tanh(z)
        
        # 计算对数概率并修正 tanh 压缩
        # log_prob = log_normal(z) - log(1 - tanh(z)^2)
        log_prob = normal_dist.log_prob(z) - torch.log(1 - action.pow(2) + EPSILON)
        
        # 沿动作维度求和（正确处理维度）
        if log_prob.dim() > 1:
            log_prob = log_prob.sum(dim=1, keepdim=True)
        else:
            log_prob = log_prob.sum(keepdim=True)
        
        # 将动作缩放到环境范围
        action = action * self.action_high_bound
        
        # 移除添加的批量维度（如果添加了）
        if add_batch_dim:
            action = action.squeeze(0)
            log_prob = log_prob.squeeze(0)
            
        return action, log_prob

定义评论家网络（双 Q）

包含两个内部 Q 网络。

class CriticNetworkSAC(nn.Module):
    """ SAC 的双 Q 值评论家网络 """
    def __init__(self, n_observations: int, n_actions: int):
        super(CriticNetworkSAC, self).__init__()

        # Q1 架构
        self.q1_layer1 = nn.Linear(n_observations + n_actions, 256)
        self.q1_layer2 = nn.Linear(256, 256)
        self.q1_output = nn.Linear(256, 1)

        # Q2 架构
        self.q2_layer1 = nn.Linear(n_observations + n_actions, 256)
        self.q2_layer2 = nn.Linear(256, 256)
        self.q2_output = nn.Linear(256, 1)

    def forward(self, state: torch.Tensor, action: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
        """
        输出两个内部评论家的 Q 值。
        参数：
        - state (torch.Tensor)：输入状态张量。
        - action (torch.Tensor)：输入动作张量。
        返回：
        - Tuple[torch.Tensor, torch.Tensor]：Q1(s, a) 和 Q2(s, a)。
        """
        sa = torch.cat([state, action], dim=1) # 连接状态和动作

        # Q1 前向传播
        q1 = F.relu(self.q1_layer1(sa))
        q1 = F.relu(self.q1_layer2(q1))
        q1 = self.q1_output(q1)

        # Q2 前向传播
        q2 = F.relu(self.q2_layer1(sa))
        q2 = F.relu(self.q2_layer2(q2))
        q2 = self.q2_output(q2)

        return q1, q2

定义回放缓冲区

标准缓冲区，与 DDPG/DQN 版本相同。

# 定义存储转换的结构
# 使用与 DDPG/DQN 相同的 Transition 命名元组
Transition = namedtuple('Transition',
                        ('state', 'action', 'reward', 'next_state', 'done'))

# 定义回放缓冲区类（与 DDPG/DQN 版本相同）
class ReplayMemory(object):
    def __init__(self, capacity: int):
        self.memory = deque([], maxlen=capacity)

    def push(self, *args: Any) -> None:
        processed_args = []
        for arg in args:
            if isinstance(arg, torch.Tensor):
                # 确保张量为 float32 且在 CPU 上
                processed_args.append(arg.to(torch.float32).cpu())
            elif isinstance(arg, np.ndarray):
                # 将 numpy 数组转换为 float32 张量
                processed_args.append(torch.from_numpy(arg).to(torch.float32).cpu())
            elif isinstance(arg, (bool, float, int)):
                # 将标量值存储为 float32 张量
                processed_args.append(torch.tensor([arg], dtype=torch.float32))
            else:
                processed_args.append(arg)
        self.memory.append(Transition(*processed_args))

    def sample(self, batch_size: int) -> List[Transition]:
        return random.sample(self.memory, batch_size)

    def __len__(self) -> int:
        return len(self.memory)

软更新函数

重用软更新函数。

def soft_update(target_net: nn.Module, main_net: nn.Module, tau: float) -> None:
    """ 对目标网络参数执行软更新。（相同） """
    for target_param, main_param in zip(target_net.parameters(), main_net.parameters()):
        target_param.data.copy_(tau * main_param.data + (1.0 - tau) * target_param.data)

SAC 更新步骤

执行评论家、演员和（可选）alpha 更新。

def update_sac(memory: ReplayMemory,
               batch_size: int,
               actor: ActorNetworkSAC,
               critic: CriticNetworkSAC,
               target_critic: CriticNetworkSAC,
               actor_optimizer: optim.Optimizer,
               critic_optimizer: optim.Optimizer,
               log_alpha: torch.Tensor,
               alpha_optimizer: optim.Optimizer,
               target_entropy: float,
               gamma: float,
               tau: float) -> Tuple[float, float, float, float]:
    """
    执行一个 SAC 更新步骤（评论家、演员、alpha）。
    """
    # 确保内存中有足够的样本
    if len(memory) < batch_size:
        return 0.0, 0.0, 0.0, torch.exp(log_alpha.detach()).item()

    # 从内存中采样一批转换
    transitions = memory.sample(batch_size)
    batch = Transition(*zip(*transitions))

    # 解包并移至适当设备，显式指定 dtype=float32
    state_batch = torch.cat([s.view(1, -1).float() for s in batch.state]).to(device)
    action_batch = torch.cat([a.view(1, -1).float() for a in batch.action]).to(device)
    reward_batch = torch.cat([r.view(1, -1).float() for r in batch.reward]).to(device)
    next_state_batch = torch.cat([s.view(1, -1).float() for s in batch.next_state]).to(device)
    done_batch = torch.cat([d.view(1, -1).float() for d in batch.done]).to(device)

    # --- 评论家更新 ---
    with torch.no_grad():
        # 从当前策略获取下一个动作和对数概率
        next_action, next_log_prob = actor(next_state_batch)
        
        # 从目标评论家获取目标 Q 值
        q1_target_next, q2_target_next = target_critic(next_state_batch, next_action)
        q_target_next = torch.min(q1_target_next, q2_target_next)  # 取两个 Q 值的最小值
        
        # 计算软目标：
        # soft_target = Q_target_next - α * log_prob
        alpha = torch.exp(log_alpha.detach()).float()
        soft_target = q_target_next - alpha * next_log_prob
        
        # 计算 Bellman 方程的目标值：
        # y = reward + γ * (1 - done) * soft_target
        y = reward_batch + gamma * (1.0 - done_batch) * soft_target

    # 获取评论家的当前 Q 估计
    q1_current, q2_current = critic(state_batch, action_batch)

    # 计算评论家损失（均方误差）：
    # critic_loss = MSE(Q1_current, y) + MSE(Q2_current, y)
    critic1_loss = F.mse_loss(q1_current, y)
    critic2_loss = F.mse_loss(q2_current, y)
    critic_loss = critic1_loss + critic2_loss

    # 优化评论家网络
    critic_optimizer.zero_grad()
    critic_loss.backward()
    critic_optimizer.step()

    # --- 演员更新 ---
    # 冻结评论家梯度以避免在演员优化期间更新它们
    for p in critic.parameters():
        p.requires_grad = False

    # 从演员获取当前状态下的动作和对数概率
    pi_action, pi_log_prob = actor(state_batch)
    
    # 从评论家获取这些动作的 Q 值
    q1_pi, q2_pi = critic(state_batch, pi_action)
    min_q_pi = torch.min(q1_pi, q2_pi)  # 取两个 Q 值的最小值

    # 计算演员损失：
    # actor_loss = E[α * log_prob - Q_min]
    actor_loss = (alpha * pi_log_prob - min_q_pi).mean()

    # 优化演员网络
    actor_optimizer.zero_grad()
    actor_loss.backward()
    actor_optimizer.step()

    # 解冻评论家梯度
    for p in critic.parameters():
        p.requires_grad = True
        
    # --- Alpha（熵温度）更新 ---
    # 计算 alpha 损失：
    # alpha_loss = -E[log_alpha * (log_prob + target_entropy)]
    target_entropy_tensor = torch.tensor(target_entropy, dtype=torch.float32, device=device)
    alpha_loss = -(log_alpha * (pi_log_prob.detach().float() + target_entropy_tensor)).mean()

    # 优化 alpha（如果启用了自动调整）
    if alpha_optimizer is not None:
        alpha_optimizer.zero_grad()
        alpha_loss.backward()
        alpha_optimizer.step()
    
    # 获取 alpha 的当前值
    current_alpha = torch.exp(log_alpha.detach()).item()

    # --- 更新目标网络 ---
    # 对目标评论家网络执行软更新：
    # θ_target = τ * θ_main + (1 - τ) * θ_target
    soft_update(target_critic, critic, tau)

    # 返回损失和当前 alpha 值
    return critic_loss.item(), actor_loss.item(), alpha_loss.item(), current_alpha

运行 SAC 算法

设置超参数，初始化所有内容，并运行 SAC 训练循环。

超参数设置

为摆动定义 SAC 超参数。

# SAC 在摆动上的超参数
BUFFER_SIZE_SAC = int(1e6)     # 回放缓冲区容量
BATCH_SIZE_SAC = 256           # 小批量大小
GAMMA_SAC = 0.99               # 折扣因子
TAU_SAC = 5e-3                 # 软更新因子
LR_SAC = 3e-4                  # 演员、评论家和 alpha 的学习率
INITIAL_ALPHA = 0.2            # 初始熵温度（或如果未调整则为固定值）
AUTO_TUNE_ALPHA = True         # 是否自动调整 alpha
TARGET_ENTROPY = -float(n_actions_sac) # 启发式目标熵：-|动作空间维度|

NUM_EPISODES_SAC = 100         # 训练回合数
MAX_STEPS_PER_EPISODE_SAC = 200 # 摆动通常使用 200 步
START_STEPS = 1000             # 初始随机步骤数，之后开始训练
UPDATE_EVERY_SAC = 1           # 每个环境步骤后执行更新

初始化

初始化所有网络、目标网络、优化器、alpha 和缓冲区。

if env is None:
    raise RuntimeError("无法创建 Gymnasium 环境 'Pendulum-v1'。")

# 初始化网络
actor_sac = ActorNetworkSAC(n_observations_sac, n_actions_sac, action_high_sac).to(device)
critic_sac = CriticNetworkSAC(n_observations_sac, n_actions_sac).to(device)
target_critic_sac = CriticNetworkSAC(n_observations_sac, n_actions_sac).to(device)
target_critic_sac.load_state_dict(critic_sac.state_dict())
# 冻结目标评论家参数
for p in target_critic_sac.parameters():
    p.requires_grad = False

# 初始化优化器
actor_optimizer_sac = optim.Adam(actor_sac.parameters(), lr=LR_SAC)
critic_optimizer_sac = optim.Adam(critic_sac.parameters(), lr=LR_SAC)

# 初始化 Alpha（熵温度）
# 初始化 Alpha（熵温度）并显式设置为 float32
if AUTO_TUNE_ALPHA:
    # 学习 log_alpha 以提高稳定性
    log_alpha_sac = torch.tensor(np.log(INITIAL_ALPHA), dtype=torch.float32, requires_grad=True, device=device)
    alpha_optimizer_sac = optim.Adam([log_alpha_sac], lr=LR_SAC)
else:
    log_alpha_sac = torch.tensor(np.log(INITIAL_ALPHA), dtype=torch.float32, requires_grad=False, device=device)
    alpha_optimizer_sac = None # 如果 alpha 固定则不需要优化器

# 确保目标熵也是 float32
TARGET_ENTROPY_TENSOR = torch.tensor(-float(n_actions_sac), dtype=torch.float32, device=device)

# 初始化回放缓冲区
memory_sac = ReplayMemory(BUFFER_SIZE_SAC)

# 用于绘图的列表
sac_episode_rewards = []
sac_episode_critic_losses = []
sac_episode_actor_losses = []
sac_episode_alpha_losses = []
sac_episode_alphas = []

训练循环

SAC 训练循环，包括初始随机探索。

print("开始在摆动上训练 SAC...")

# --- SAC 训练循环 ---
total_steps_sac = 0
for i_episode in range(1, NUM_EPISODES_SAC + 1):
    state_np, info = env.reset()
    state = torch.from_numpy(state_np).float().to(device)
    episode_reward = 0
    episode_critic_loss = 0
    episode_actor_loss = 0
    episode_alpha_loss = 0
    num_updates = 0

    for t in range(MAX_STEPS_PER_EPISODE_SAC):
        # --- 动作选择 --- 
        if total_steps_sac < START_STEPS:
            # 初始探索使用随机动作
            action = env.action_space.sample() # 从环境的动作空间采样
            action_tensor = torch.from_numpy(action).float().to(device)
        else:
            # 从随机策略采样动作
            actor_sac.eval() # 设置为评估模式以进行一致采样
            with torch.no_grad():
                action_tensor, _ = actor_sac(state)
            actor_sac.train() # 恢复训练模式
            action = action_tensor.cpu().numpy() # 转换为 numpy 用于 env.step
            # 动作已由网络缩放
            # 如果网络输出 + 噪声略微超出范围，仍需裁剪
            action = np.clip(action, action_low_sac, action_high_sac)

        # --- 环境交互 --- 
        next_state_np, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        
        # --- 存储经验 --- 
        # 确保存储的动作是张量
        action_store_tensor = torch.from_numpy(action if isinstance(action, np.ndarray) else np.array([action])).float()
        memory_sac.push(state, action_store_tensor, reward, next_state_np, done)

        state_np = next_state_np
        state = torch.from_numpy(state_np).float().to(device)
        episode_reward += reward
        total_steps_sac += 1

        # --- 更新网络（如果收集了足够的步骤且缓冲区足够） --- 
        if total_steps_sac >= START_STEPS and total_steps_sac % UPDATE_EVERY_SAC == 0:
            if len(memory_sac) > BATCH_SIZE_SAC:
                c_loss, a_loss, alpha_loss, _ = update_sac(
                    memory_sac, BATCH_SIZE_SAC, 
                    actor_sac, critic_sac, target_critic_sac,
                    actor_optimizer_sac, critic_optimizer_sac,
                    log_alpha_sac, alpha_optimizer_sac if AUTO_TUNE_ALPHA else None, 
                    TARGET_ENTROPY if AUTO_TUNE_ALPHA else 0.0,
                    GAMMA_SAC, TAU_SAC
                )
                episode_critic_loss += c_loss
                episode_actor_loss += a_loss
                episode_alpha_loss += alpha_loss
                num_updates += 1

        if done:
            break
            
    # --- 回合结束 --- 
    sac_episode_rewards.append(episode_reward)
    sac_episode_critic_losses.append(episode_critic_loss / num_updates if num_updates > 0 else 0)
    sac_episode_actor_losses.append(episode_actor_loss / num_updates if num_updates > 0 else 0)
    sac_episode_alpha_losses.append(episode_alpha_loss / num_updates if num_updates > 0 else 0)
    sac_episode_alphas.append(torch.exp(log_alpha_sac.detach()).item())

    # 打印进度
    if i_episode % 10 == 0:
        avg_reward = np.mean(sac_episode_rewards[-10:])
        avg_closs = np.mean(sac_episode_critic_losses[-10:])
        avg_aloss = np.mean(sac_episode_actor_losses[-10:])
        current_alpha = sac_episode_alphas[-1]
        print(f"回合 {i_episode}/{NUM_EPISODES_SAC} | 步骤：{total_steps_sac} | 平均奖励：{avg_reward:.2f} | 评论家损失：{avg_closs:.4f} | 演员损失：{avg_aloss:.4f} | Alpha：{current_alpha:.4f}")

print("摆动训练完成（SAC）。")

开始在摆动上训练 SAC...
回合 10/100 | 步骤：2000 | 平均奖励：-1413.71 | 评论家损失：13.7941 | 演员损失：9.2109 | Alpha：0.1522
回合 20/100 | 步骤：4000 | 平均奖励：-1133.37 | 评论家损失：34.4909 | 演员损失：61.2778 | Alpha：0.1203
回合 30/100 | 步骤：6000 | 平均奖励：-783.47 | 评论家损失：89.4786 | 演员损失：95.3463 | Alpha：0.1385
回合 40/100 | 步骤：8000 | 平均奖励：-201.32 | 评论家损失：133.6666 | 演员损失：109.4018 | Alpha：0.2055
回合 50/100 | 步骤：10000 | 平均奖励：-208.57 | 评论家损失：147.7181 | 演员损失：109.8792 | Alpha：0.2450
回合 60/100 | 步骤：12000 | 平均奖励：-137.20 | 评论家损失：162.6894 | 演员损失：102.9486 | Alpha：0.2321
回合 70/100 | 步骤：14000 | 平均奖励：-183.97 | 评论家损失：150.2266 | 演员损失：93.0447 | Alpha：0.2226
回合 80/100 | 步骤：16000 | 平均奖励：-168.13 | 评论家损失：132.5991 | 演员损失：82.4845 | Alpha：0.1889
回合 90/100 | 步骤：18000 | 平均奖励：-127.96 | 评论家损失：120.6159 | 演员损失：71.2044 | Alpha：0.1632
回合 100/100 | 步骤：20000 | 平均奖励：-155.37 | 评论家损失：113.2320 | 演员损失：61.8330 | Alpha：0.1420
摆动训练完成（SAC）。

可视化学习过程

绘制集数奖励、损失和学习的 alpha 值。

# 绘制摆动上的 SAC 结果
plt.figure(figsize=(20, 8))

# 集数奖励
plt.subplot(2, 3, 1)
plt.plot(sac_episode_rewards)
plt.title('SAC 摆动：集数奖励')
plt.xlabel('集数')
plt.ylabel('总奖励')
plt.grid(True)
if len(sac_episode_rewards) >= 10:
    rewards_ma_sac = np.convolve(sac_episode_rewards, np.ones(10)/10, mode='valid')
    plt.plot(np.arange(len(rewards_ma_sac)) + 9, rewards_ma_sac, label='10 集数移动平均', color='橙色')
    plt.legend()

# 评论家损失
plt.subplot(2, 3, 2)
plt.plot(sac_episode_critic_losses)
plt.title('SAC 摆动：每集平均评论家损失')
plt.xlabel('集数')
plt.ylabel('平均均方误差损失')
plt.grid(True)
if len(sac_episode_critic_losses) >= 10:
    closs_ma_sac = np.convolve(sac_episode_critic_losses, np.ones(10)/10, mode='valid')
    plt.plot(np.arange(len(closs_ma_sac)) + 9, closs_ma_sac, label='10 集数移动平均', color='橙色')
    plt.legend()

# 演员损失
plt.subplot(2, 3, 3)
plt.plot(sac_episode_actor_losses)
plt.title('SAC 摆动：每集平均演员损失')
plt.xlabel('集数')
plt.ylabel('平均损失（alpha*log_pi - Q）')
plt.grid(True)
if len(sac_episode_actor_losses) >= 10:
    aloss_ma_sac = np.convolve(sac_episode_actor_losses, np.ones(10)/10, mode='valid')
    plt.plot(np.arange(len(aloss_ma_sac)) + 9, aloss_ma_sac, label='10 集数移动平均', color='橙色')
    plt.legend()

# Alpha 值
plt.subplot(2, 3, 4)
plt.plot(sac_episode_alphas)
plt.title('SAC 摆动：每集 Alpha（熵温度）')
plt.xlabel('集数')
plt.ylabel('Alpha')
plt.grid(True)

# Alpha 损失（如果自动调整）
if AUTO_TUNE_ALPHA:
    plt.subplot(2, 3, 5)
    plt.plot(sac_episode_alpha_losses)
    plt.title('SAC 摆动：每集平均 Alpha 损失')
    plt.xlabel('集数')
    plt.ylabel('平均损失')
    plt.grid(True)
    if len(sac_episode_alpha_losses) >= 10:
        alphloss_ma_sac = np.convolve(sac_episode_alpha_losses, np.ones(10)/10, mode='valid')
        plt.plot(np.arange(len(alphloss_ma_sac)) + 9, alphloss_ma_sac, label='10 集数移动平均', color='橙色')
        plt.legend()

plt.tight_layout()
plt.show()

SAC 学习曲线分析（摆动）：

集数奖励：
代理表现出清晰且相对稳定的学习，在前 40-50 个回合中，10 集数移动平均奖励从大约 -1500 显著增加到约 -200，表示策略的优化成功。奖励在较高水平上趋于稳定，表明探索策略有效。与 DDPG 相比，方差似乎更低，这可能是由于 SAC 的熵正则化促进了更平滑的策略变化。
每集平均评论家损失：
与 DDPG 类似，评论家的均方误差损失在训练期间显著增加。这反映了评论家正在适应改进的策略和更高的目标 Q 值（与更好的性能相关的更少负奖励）。尽管上升的损失有时可能表明不稳定性，但在此处它可能对应于该任务中 Q 值规模的增加，而稳定的奖励表明评论家学习是有效的。
每集平均演员损失：
演员损失（代表 alpha*log_pi - Q）最初增加，在约第 40 个回合达到峰值后逐渐减少。由于 SAC 的复杂目标旨在同时最大化预期回报（高 Q）和策略熵（高 log_pi），因此损失（最小化即目标最大化）的峰值后下降表明重点已转向最大化 Q 值。
Alpha（熵温度）/ 集数：
自动调整的熵温度参数 alpha 表现出有趣的行为。它最初下降，表明代理迅速变得更加确定（降低熵），然后在约第 55 个回合显著增加，表明需要更多探索以逃离局部最优或适应更高价值的状态，最后随着策略收敛和变得更加确定而再次下降。这种动态调整是 SAC 探索与利用平衡的关键。
每集平均 Alpha 损失：
与调整 alpha 相关的损失显示初始负尖峰，随后上升并稳定接近零。该损失旨在驱动 alpha 使得策略熵匹配目标值。其稳定接近零表明自动调整机制已收敛，成功平衡策略的熵。

总体结论：
SAC 在连续动作的摆动任务上表现出有效且相对稳定的学习，实现的奖励与 DDPG 相当但可能方差更低。自动调整的熵温度（alpha）积极调整整个训练过程中的探索水平，为稳健学习做出了贡献。评论家和演员的损失显示出与摆动环境动态和 SAC 最大熵目标一致的趋势。

分析学习的策略（测试）

通过在环境中确定性地（使用策略分布的均值）运行训练好的 SAC 代理来可视化其性能。

def test_sac_agent(actor_net: ActorNetworkSAC, 
                   env_instance: gym.Env, 
                   num_episodes: int = 5, 
                   render: bool = False, 
                   seed_offset: int = 2000) -> None:
    """
    使用均值动作（确定性）测试训练好的 SAC 代理。
    """
    if env_instance is None:
        print("无法进行测试，环境不可用。")
        return
        
    actor_net.eval() # 设置演员为评估模式
    
    print(f"\n--- 测试 SAC 代理（{num_episodes} 个回合，确定性） ---")
    all_rewards = []
    for i in range(num_episodes):
        state_np, info = env_instance.reset(seed=seed + seed_offset + i)
        state = torch.from_numpy(state_np).float().to(device)
        episode_reward = 0
        done = False
        t = 0
        while not done:
            if render:
                try:
                    env_instance.render()
                    time.sleep(0.01)
                except Exception as e:
                    print(f"渲染失败：{e}。禁用渲染。")
                    render = False
            
            with torch.no_grad():
                # --- 获取确定性动作（均值） --- 
                # 前向传播以获取均值，忽略采样动作和对数概率
                x = F.relu(actor_net.layer1(state))
                x = F.relu(actor_net.layer2(x))
                mean = actor_net.mean_layer(x)
                action_deterministic = torch.tanh(mean) * actor_net.action_high_bound
                # -----------------------------------------
                action = action_deterministic.cpu().numpy()
            
            # 仅在必要时裁剪
            action_clipped = np.clip(action, env_instance.action_space.low, env_instance.action_space.high)
            
            next_state_np, reward, terminated, truncated, _ = env_instance.step(action_clipped)
            done = terminated or truncated
            state = torch.from_numpy(next_state_np).float().to(device)
            episode_reward += reward
            t += 1
        
        print(f"测试回合 {i+1}：奖励 = {episode_reward:.2f}，长度 = {t}")
        all_rewards.append(episode_reward)
        if render:
             env_instance.close()

    print(f"--- 测试完成。平均奖励：{np.mean(all_rewards):.2f} ---")

# 运行测试回合
test_sac_agent(actor_sac, env, num_episodes=3, render=False) # 如需要，可设置 render=True

--- 测试 SAC 代理（3 个回合，确定性） ---
测试回合 1：奖励 = -0.47，长度 = 200
测试回合 2：奖励 = -123.35，长度 = 200
测试回合 3：奖励 = -0.76，长度 = 200
--- 测试完成。平均奖励：-41.53 ---

SAC 的常见挑战和解决方案

挑战：超参数敏感性（尤其是 $\alpha$ ）

问题：性能对学习率、 $\tau$ 、批量大小和特别是熵温度 $\alpha$ 非常敏感。固定的 $\alpha$ 可能过高（过度探索，收敛缓慢）或过低（探索不足，策略次优）。
解决方案：
- 自动调整 Alpha：实现基于目标熵的自动调整 $\alpha$ （如本笔记本中所做）通常可以提高稳定性和性能。
- 仔细手动调整：如果不使用自动调整， $\alpha$ 需要仔细的手动调整，通常需要实验。
- 使用标准默认值：从常见值开始（例如，LR=3e-4， $\tau$ =5e-3，批量=256）。

挑战：目标熵 $\bar{H}$ 的选择

问题：在自动调整 $\alpha$ 时，目标熵 $\bar{H}$ 的选择可以影响策略的探索水平。常用的启发式方法 $\bar{H} = -\text{dim}(\mathcal{A})$ 并不总是最优的。
解决方案：
- 使用启发式方法：从 $\bar{H} = -\text{dim}(\mathcal{A})$ 开始。
- 实验：如果性能不满意，尝试略微不同的 $\bar{H}$ 值。

挑战：实现细节（压缩校正）

问题：忘记应用由于 tanh 压缩函数导致的对数概率校正项是常见的实现错误，严重影响性能。

解决方案：确保对数概率计算正确减去 $log(1 - \tanh(z)^2)$ ，沿动作维度求和。

挑战：非常复杂任务的样本效率

问题：尽管由于离策略学习而具有很高的样本效率，但极其复杂的环境可能仍然需要大量的数据。

解决方案：
* 分布式训练：使用多个并行收集数据的代理（例如，RLLib 框架）。
* 基于模型的强化学习：结合学习的环境动力学模型以生成额外的模拟数据。
* 离线强化学习：如果有足够的预收集数据，可以使用离线强化学习变体。

结论

软演员评论家（SAC）是一种强大的Off-Policy策略演员评论家算法，在连续控制任务中表现出色，通过结合最大熵框架。通过优化奖励和策略熵，SAC 鼓励稳健的探索，并通常实现最先进的性能，具有高样本效率和稳定性。

关键特性包括随机策略与重参数化、双 Q 评论家与软目标更新，以及通常自动调整的熵温度（ $\alpha$ ），使其成为现代强化学习中具有吸引力的选择，适用于具有挑战性的连续控制问题。

你可能感兴趣的:(复现强化学习RL算法,算法,python,人工智能,数据挖掘,深度学习,RL)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj