AI仙人掌

深入理解深度确定性策略梯度DDPG：基于python从零实现

向所有学习者致敬！

“学习不是装满一桶水，而是点燃一把火。” —— 叶芝

我的博客主页： https://lizheng.blog.csdn.net

欢迎点击加入AI人工智能社区！

让我们一起努力，共创AI未来！

前言

深度确定性策略梯度（DDPG）是一种离线策略的演员-评论家算法，专门为具有连续动作空间的环境设计。它结合了深度 Q 网络（DQN）中的思想，例如回放缓存和目标网络，并将其应用于演员-评论家框架，适应确定性策略的策略梯度。这使得它成为处理机器人控制和模拟物理环境等任务的强大工具，这些任务中的动作是实数值。

什么是 DDPG？

DDPG 学习两个主要的网络：

演员（Actor） $\mu(s; \theta^\mu)$ ：一个策略网络，它接收状态 $s$ 并输出一个特定的确定性动作 $\mu(s)$ ，而不是动作的概率分布。参数化为 $\theta^\mu$ 。
评论家（Critic） $\theta^Q)$ ：一个 Q 值网络，它接收状态 $s$ 和动作 $a$ 并输出该状态-动作对的估计 Q 值（预期回报）。参数化为 $\theta^Q$ 。

它借鉴了 DQN 中的技术来稳定学习：

回放缓存（Replay Buffer）：存储经验 $s_t, a_t, r_t, s_{t+1})$ 并从中采样小批量数据进行更新，实现离线策略学习并打破数据相关性。
目标网络（Target Networks）：为演员（ $\mu'$ ）和评论家（ $Q^{'}$ ）分别维护独立的目标网络，这些目标网络会缓慢更新（软更新）到主网络。这为评论家的学习提供了稳定的靶子。

核心思想：确定性策略与离线策略学习

确定性策略：直接输出动作，相比参数化复杂的连续概率分布，这在连续空间中简化了学习过程。不过，这也需要显式地添加探索噪声。
离线策略：使用回放缓存可以让 DDPG 重用旧策略生成的经验，这比 REINFORCE、A2C 或 TRPO/PPO 等在线策略方法更高效，尤其是在环境交互成本很高的情况下。

DDPG 的应用场景

DDPG 主要用于具有连续动作空间的问题：

机器人技术：学习机器人手臂的控制策略、行走、操作等。
连续控制基准测试：例如摆动（Pendulum）、连续山地车（MountainCarContinuous）、MuJoCo 环境（如单足机器人 Hopper、行走机器人 Walker 等）。
自动驾驶（仿真）：控制方向盘、油门等。

DDPG 适用于以下情况：

动作空间是连续的。
样本效率很重要（离线策略学习很有帮助）。
可以接受或需要确定性策略。

然而，DDPG 对超参数比较敏感，有时会出现 Q 值高估和不稳定的问题。因此，开发了像 TD3（双延迟 DDPG）这样的扩展算法来解决这些问题。

DDPG 的数学基础

演员-评论家框架回顾

核心思想依然是：评论家评估状态-动作值，而演员根据评论家的评估更新其策略。

确定性策略梯度定理

对于确定性策略 $\mu(s; \theta^\mu)$ ，性能目标 $J(\theta^\mu)$ 的梯度为：
$\nabla_{\theta^\mu} J(\theta^\mu) = \mathbb{E}_{s \sim \rho^\beta} [ \nabla_{\theta^\mu} \mu(s; \theta^\mu) \nabla_a Q(s, a; \theta^Q)|_{a=\mu(s; \theta^\mu)} ]$
其中 $\rho^\beta$ 是在某种探索策略 $\beta$ 下的状态分布。由于 DDPG 是离线策略且使用回放缓存，期望是针对从缓存中采样的状态进行的。
直观来说，演员的参数 $\theta^\mu$ 会朝着增加评论家预测的 Q 值的方向更新。

评论家（Q 网络）更新

评论家 $\theta^Q)$ 的更新方式类似于 DQN，使用回放缓存中的样本 $s_i, a_i, r_i, s_{i+1})$ 。它最小化均方贝尔曼误差（MSBE）：
$L(\theta^Q) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} [ (y - Q(s, a; \theta^Q))^2 ]$
目标值 $y$ 是通过目标演员（ $\mu'$ ）和目标评论家（ $Q^{'}$ ）计算的：
$\gamma Q'(s', \mu'(s'; \theta^{\mu'}) ; \theta^{Q'})$
使用目标网络通过解耦目标计算与当前正在更新的参数，从而提供稳定性。

演员（策略网络）更新

演员 $\mu(s; \theta^\mu)$ 通过最大化主评论家 $Q$ 的预期输出来更新，具体是通过梯度上升实现的：
$J(\theta^\mu) \approx \mathbb{E}_{s \sim \mathcal{D}} [ Q(s, \mu(s; \theta^\mu) ; \theta^Q) ]$
在实际操作中，这意味着计算评论家输出（使用演员的动作评估）相对于演员参数的梯度。使用 PyTorch 的 autograd，可以通过计算损失 $L(\theta^\mu) = -\frac{1}{N} \sum_i Q(s_i, \mu(s_i; \theta^\mu) ; \theta^Q)$ 并执行梯度下降来实现。

目标网络和软更新

为了稳定学习，DDPG 使用目标网络 $\theta^{Q'})$ 和 $\mu'(s; \theta^{\mu'})$ ，参数分别为 $\theta^{Q'}$ 和 $\theta^{\mu'}$ 。这些网络不是直接训练的，而是通过“软更新”缓慢地向主网络参数（ $\theta^Q, \theta^\mu$ ）更新：
$\theta' \leftarrow \tau \theta + (1 - \tau) \theta'$
其中 $\tau \ll 1$ （例如 0.001、0.005）是软更新率。这使得目标值 $y$ 缓慢变化，从而提高稳定性。

探索噪声

由于演员策略是确定性的，因此在训练过程中必须外部添加探索。常见的方法是在演员的输出动作中添加噪声，然后在环境中执行：
$a_t = \mu(s_t; \theta^\mu) + \mathcal{N}_t$
其中 $\mathcal{N}_t$ 是噪声过程（例如，用于时间相关噪声的奥恩斯坦-乌伦贝克过程，或者更简单的高斯噪声）。噪声水平通常会随着时间逐渐降低。

DDPG 的逐步解释

初始化：演员网络 $\mu(s; \theta^\mu)$ 和评论家网络 $\theta^Q)$ 。
初始化：目标网络 $\mu'(s; \theta^{\mu'})$ 和 $\theta^{Q'})$ ，并设置 $\theta^{\mu'} \leftarrow \theta^\mu$ 和 $\theta^{Q'} \leftarrow \theta^Q$ 。
初始化：回放缓存 $\mathcal{D}$ 和噪声过程 $\mathcal{N}$ 。
对于每个回合：
a. 重置环境，获取初始状态 $s_0$ 。重置噪声过程。
b. 对于每一步 $t$ ：
i. 选择动作 $a_t = \mu(s_t; \theta^\mu) + \mathcal{N}_t$ 。如果需要，将动作裁剪以符合环境的边界。
ii. 执行 $a_t$ ，观察奖励 $r_t$ 、下一个状态 $s_{t+1}$ 和完成标志 $d_t$ 。
iii. 将转换 $s_t, a_t, r_t, s_{t+1}, d_t)$ 存储到 $\mathcal{D}$ 中。
iv. 采样小批量：从 $\mathcal{D}$ 中随机获取 $N$ 个转换的批次。
v. 计算评论家目标：对于批次中的每个样本 $j$ ：
$a'_{j+1} = \mu'(s_{j+1}; \theta^{\mu'})$
$y_j = r_j + \gamma (1-d_j) Q'(s_{j+1}, a'_{j+1} ; \theta^{Q'})$
vi. 更新评论家：通过梯度下降最小化损失 $\frac{1}{N} \sum_j (y_j - Q(s_j, a_j; \theta^Q))^2$ 。
vii. 更新演员：通过梯度上升最大化目标（或最小化负目标） $\frac{1}{N} \sum_j Q(s_j, \mu(s_j; \theta^\mu); \theta^Q)$ 。注意：梯度从评论家输出反向传播到演员。
viii. 更新目标网络：执行软更新：
$\theta^{Q'} \leftarrow \tau \theta^Q + (1 - \tau) \theta^{Q'}$
$\theta^{\mu'} \leftarrow \tau \theta^\mu + (1 - \tau) \theta^{\mu'}$
ix. $s_t \leftarrow s_{t+1}$ 。
x. 如果 $d_t$ ，则结束当前回合。
重复：直到收敛或达到最大回合数。

DDPG 的关键组成部分

演员网络（确定性策略）

将状态 $s$ 映射到一个特定的连续动作 $\mu(s)$ 。
训练目标是输出能够最大化评论家估计的 Q 值的动作。
输出层通常使用 tanh 激活函数，并根据动作范围进行缩放。

评论家网络（Q 值函数）

估计在状态 $s$ 下采取动作 $a$ 的价值 $Q (s, a)$ 。
输入包括状态和动作。
使用目标网络计算的贝尔曼方程目标进行训练。

目标演员和目标评论家网络

分别是演员和评论家网络的独立副本，用于计算评论家更新时的稳定目标值 $y$ 。
通过软更新缓慢更新。

回放缓存

存储 $(s, a, r, s^{'}, d o n e)$ 转换。
允许离线策略学习，并通过随机采样小批量数据打破数据相关性。

探索噪声过程

在训练过程中添加到确定性演员的输出动作中，以鼓励探索。
示例：奥恩斯坦-乌伦贝克（相关噪声）、高斯噪声。通常会随着时间逐渐降低。

软目标更新

使用更新率 $\tau$ 将主网络参数缓慢混合到目标网络参数中。
与不频繁的硬更新相比，这是稳定性的关键。

超参数

回放缓存大小、批量大小。
演员（ $\alpha_\mu$ ）和评论家（ $\alpha_Q$ ）的学习率。
目标网络软更新率（ $\tau$ ）。
折扣因子（ $\gamma$ ）。
探索噪声参数（类型、规模、衰减）。
网络架构。

实际案例：摆动环境

为什么选择摆动环境？（连续动作）

DDPG 专为需要输出连续值的环境设计（例如，施加特定的扭矩、设置速度或定位机器人关节）。网格世界（Grid World）的动作是离散的（上、下、左、右），而 Pendulum-v1 环境是一个标准的基准测试，具有以下特点：

连续状态：[cos(theta), sin(theta), theta_dot]
连续动作：施加到关节的扭矩，通常是一个介于 [-2.0, 2.0] 之间的值。

使用这个环境可以正确展示 DDPG 如何处理连续动作。这需要 gymnasium 库，与参考 DQN 笔记本中“仅限基本库”的约束略有偏差，因为 DDPG 本质上适用于此类环境。

设置环境

导入必要的库，包括 gymnasium。

# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
import random
import math
from collections import namedtuple, deque
from itertools import count
from typing import List, Tuple, Dict, Optional, Callable, Any, Union
import copy
import os
import time

# 导入 PyTorch
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

# 导入 Gymnasium 用于连续环境
try:
    import gymnasium as gym
except ImportError:
    print("未找到 Gymnasium。请使用 'pip install gymnasium' 或 'pip install gym[classic_control]' 进行安装")
    # 如果 gym 是必需的，这里可以退出或抛出错误
    gym = None # 如果导入失败，则将 gym 设置为 None

# 设置设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"使用设备：{device}")

# 设置随机种子以确保可重复性
seed = 42
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(seed)

%matplotlib inline

使用设备：cpu

创建连续环境（Gymnasium）

使用 Gymnasium 实例化摆动环境。

# 实例化摆动环境
if gym is not None:
    try:
        # 创建环境
        env = gym.make('Pendulum-v1')
        
        # 为环境设置种子以确保可重复性
        env.reset(seed=seed)
        env.action_space.seed(seed)

        # 获取状态和动作空间的维度
        n_observations_ddpg = env.observation_space.shape[0]
        n_actions_ddpg = env.action_space.shape[0] # DDPG 处理连续动作
        action_low = env.action_space.low[0]
        action_high = env.action_space.high[0]

        print(f"摆动环境：")
        print(f"状态维度：{n_observations_ddpg}")
        print(f"动作维度：{n_actions_ddpg}")
        print(f"动作最小值：{action_low}")
        print(f"动作最大值：{action_high}")
        
        # 测试重置
        obs, info = env.reset()
        print(f"初始观测值：{obs}")
        
    except Exception as e:
        print(f"创建 Gymnasium 环境时出错：{e}")
        # 如果环境创建失败，则设置虚拟值
        n_observations_ddpg = 3
        n_actions_ddpg = 1
        action_low = -2.0
        action_high = 2.0
        env = None # 标记环境无法使用
else:
    print("未找到 Gymnasium。无法创建摆动环境。")
    # 设置虚拟值
    n_observations_ddpg = 3
    n_actions_ddpg = 1
    action_low = -2.0
    action_high = 2.0
    env = None

摆动环境：
状态维度：3
动作维度：1
动作最小值：-2.0
动作最大值：2.0
初始观测值：[-0.6306115   0.77609867  0.39473605]

实现 DDPG 算法

定义演员、评论家、回放缓存、噪声和更新逻辑。

定义演员网络

输出一个确定性的连续动作，通过 tanh 缩放到环境的动作范围。

class ActorNetwork(nn.Module):
    """ DDPG 的确定性演员网络 """
    def __init__(self, n_observations: int, n_actions: int, action_high_bound: float):
        super(ActorNetwork, self).__init__()
        self.action_high_bound = action_high_bound
        # 简单的多层感知机架构
        self.layer1 = nn.Linear(n_observations, 256)
        self.layer2 = nn.Linear(256, 256)
        self.layer3 = nn.Linear(256, n_actions)
        
        # 初始化最终层权重以获得较小的初始输出
        # 在 DDPG 中通常很有帮助
        nn.init.uniform_(self.layer3.weight, -3e-3, 3e-3)
        nn.init.uniform_(self.layer3.bias, -3e-3, 3e-3)

    def forward(self, state: torch.Tensor) -> torch.Tensor:
        """
        将状态映射到确定性动作。
        参数：
        - state (torch.Tensor)：输入状态张量。
        返回：
        - torch.Tensor：确定性动作，缩放到环境的动作范围。
        """
        x = F.relu(self.layer1(state))
        x = F.relu(self.layer2(x))
        # 使用 tanh 将输出限制在 -1 和 1 之间
        action_tanh = torch.tanh(self.layer3(x))
        # 缩放到环境的动作范围
        scaled_action = action_tanh * self.action_high_bound
        return scaled_action

定义评论家网络

给定状态和动作，输出一个 Q 值。通常在处理初始状态后将动作与状态特征连接起来。

class CriticNetwork(nn.Module):
    """ DDPG 的 Q 值评论家网络 """
    def __init__(self, n_observations: int, n_actions: int):
        super(CriticNetwork, self).__init__()
        # 首先单独处理状态
        self.state_layer1 = nn.Linear(n_observations, 256)
        # 在第二层将状态特征和动作结合起来
        self.combined_layer2 = nn.Linear(256 + n_actions, 256)
        self.output_layer3 = nn.Linear(256, 1)

    def forward(self, state: torch.Tensor, action: torch.Tensor) -> torch.Tensor:
        """
        将状态和动作映射到 Q 值。
        参数：
        - state (torch.Tensor)：输入状态张量。
        - action (torch.Tensor)：输入动作张量。
        返回：
        - torch.Tensor：估计的 Q(s, a) 值。
        """
        state_features = F.relu(self.state_layer1(state))
        # 将状态特征和动作连接起来
        combined = torch.cat([state_features, action], dim=1)
        x = F.relu(self.combined_layer2(combined))
        q_value = self.output_layer3(x)
        return q_value

定义回放缓存

与 DQN 类似的标准回放缓存实现。

# 定义存储转换的结构
Transition = namedtuple('Transition',
                        ('state', 'action', 'reward', 'next_state', 'done'))

# 定义回放缓存类
class ReplayMemory(object):
    """ 存储转换并允许采样批次。 """
    def __init__(self, capacity: int):
        """
        初始化回放缓存。
        参数：
        - capacity (int)：最大存储转换数量。
        """
        # 使用 deque 实现高效的先进先出缓冲区
        self.memory = deque([], maxlen=capacity)

    def push(self, *args: Any) -> None:
        """
        保存一个转换。
        参数：
        - *args：转换元素（state, action, reward, next_state, done）。
                 状态/动作/奖励/下一个状态应为张量或易于转换。
        """
        # 确保数据正确存储（例如，张量在 CPU 上）
        processed_args = []
        for arg in args:
            if isinstance(arg, torch.Tensor):
                processed_args.append(arg.cpu()) # 在 CPU 上存储张量
            elif isinstance(arg, (bool, float, int)):
                 # 如果需要，可以将 bool/float/int 转换为张量以保持一致性，但直接存储原始值也可以。
                 # 对于 done/reward，存储原始值，对于状态/动作，存储张量。
                 processed_args.append(arg) 
            elif isinstance(arg, np.ndarray):
                 processed_args.append(torch.from_numpy(arg).float().cpu()) # 将 numpy 数组转换为张量
            else:
                 processed_args.append(arg) # 保持其他类型不变
                 
        self.memory.append(Transition(*processed_args))

    def sample(self, batch_size: int) -> List[Transition]:
        """
        从内存中随机采样一批转换。
        参数：
        - batch_size (int)：要采样的转换数量。
        返回：
        - List[Transition]：包含采样转换的列表。
        """
        return random.sample(self.memory, batch_size)

    def __len__(self) -> int:
        """ 返回当前内存的大小。 """
        return len(self.memory)

定义探索噪声

简单的高斯噪声实现。奥恩斯坦-乌伦贝克噪声是另一种常见选择，但稍微复杂一些。

class GaussianNoise:
    """ 简单的高斯噪声过程用于探索。 """
    def __init__(self, action_dimension: int, mean: float = 0.0, std_dev: float = 0.1):
        """
        初始化高斯噪声。
        参数：
        - action_dimension (int)：动作空间的维度。
        - mean (float)：高斯分布的均值。
        - std_dev (float)：高斯分布的标准差。
        """
        self.action_dim = action_dimension
        self.mean = mean
        self.std_dev = std_dev

    def get_noise(self) -> np.ndarray:
        """ 生成噪声。 """
        # 使用 numpy 生成噪声
        noise = np.random.normal(self.mean, self.std_dev, self.action_dim)
        return noise

    def reset(self) -> None:
        """ 重置噪声状态（高斯噪声没有状态）。 """
        pass

软更新函数

帮助函数，用于执行目标网络参数的软更新。

def soft_update(target_net: nn.Module, main_net: nn.Module, tau: float) -> None:
    """
    执行目标网络参数的软更新。
    $\theta_{\text{target}} = \tau \cdot \theta_{\text{local}} + (1 - \tau) \cdot \theta_{\text{target}}$

    参数：
    - target_net (nn.Module)：要更新的目标网络。
    - main_net (nn.Module)：提供参数的主网络。
    - tau (float)：软更新因子 ($\tau$)。
    """
    for target_param, main_param in zip(target_net.parameters(), main_net.parameters()):
        target_param.data.copy_(tau * main_param.data + (1.0 - tau) * target_param.data)

DDPG 更新步骤

使用从回放缓存中采样的批次执行一次 DDPG 更新。

def update_ddpg(memory: ReplayMemory,
                  batch_size: int,
                  actor: ActorNetwork,
                  critic: CriticNetwork,
                  target_actor: ActorNetwork,
                  target_critic: CriticNetwork,
                  actor_optimizer: optim.Optimizer,
                  critic_optimizer: optim.Optimizer,
                  gamma: float,
                  tau: float) -> Tuple[float, float]:
    """
    执行一次 DDPG 更新步骤（演员和评论家）。

    参数：
    - memory：回放缓存对象。
    - batch_size：要采样的小批量大小。
    - actor, critic：主网络。
    - target_actor, target_critic：目标网络。
    - actor_optimizer, critic_optimizer：优化器。
    - gamma：折扣因子。
    - tau：软更新因子。

    返回：
    - Tuple[float, float]：评论家损失和演员损失，用于日志记录。
    """
    # 如果缓冲区中没有足够的样本，则不进行更新
    if len(memory) < batch_size:
        return 0.0, 0.0

    # 采样一个批次
    transitions = memory.sample(batch_size)
    batch = Transition(*zip(*transitions))

    # 解包批次数据并移动到设备
    # 确保状态/下一个状态是 FloatTensors，动作是 FloatTensors，奖励/完成标志是 FloatTensors
    state_batch = torch.stack([s for s in batch.state if s is not None]).float().to(device)
    action_batch = torch.stack([a for a in batch.action if a is not None]).float().to(device)
    reward_batch = torch.tensor(batch.reward, dtype=torch.float32, device=device).unsqueeze(1)
    next_state_batch = torch.stack([s for s in batch.next_state if s is not None]).float().to(device)
    # 将布尔类型的 'done' 标志转换为浮点张量（完成为 1.0，未完成为 0.0）
    done_batch = torch.tensor(batch.done, dtype=torch.float32, device=device).unsqueeze(1)

    # --- 评论家更新 --- 
    
    # 1. 计算目标 Q 值 (y)
    with torch.no_grad(): # 目标计算不需要跟踪梯度
        # 从目标演员获取下一个动作
        next_actions = target_actor(next_state_batch)
        # 从目标评论家获取下一个状态/动作的 Q 值
        target_q_values = target_critic(next_state_batch, next_actions)
        # 计算目标 $ y = r + \gamma \cdot Q'_{\text{target}} \cdot (1 - \text{done}) $
        y = reward_batch + gamma * (1.0 - done_batch) * target_q_values

    # 2. 获取主评论家的当前 Q 值
    current_q_values = critic(state_batch, action_batch)

    # 3. 计算评论家损失（均方误差）
    critic_loss = F.mse_loss(current_q_values, y)

    # 4. 优化评论家
    critic_optimizer.zero_grad()
    critic_loss.backward()
    # 可选：对评论家进行梯度裁剪
    # torch.nn.utils.clip_grad_norm_(critic.parameters(), 1.0)
    critic_optimizer.step()

    # --- 演员更新 --- 

    # 1. 计算演员损失（负平均 Q 值）
    # 我们希望最大化 $ Q(s, \mu(s)) $，因此最小化 $ -Q(s, \mu(s)) $
    actor_actions = actor(state_batch)
    q_values_for_actor = critic(state_batch, actor_actions) # 使用主评论家
    actor_loss = -q_values_for_actor.mean()

    # 2. 优化演员
    actor_optimizer.zero_grad()
    actor_loss.backward()
    # 可选：对演员进行梯度裁剪
    # torch.nn.utils.clip_grad_norm_(actor.parameters(), 1.0)
    actor_optimizer.step()

    # --- 更新目标网络 --- 
    soft_update(target_critic, critic, tau)
    soft_update(target_actor, actor, tau)

    return critic_loss.item(), actor_loss.item()

运行 DDPG 算法

设置超参数，初始化网络、优化器、缓冲区和噪声，然后运行 DDPG 训练循环。

超参数设置

为摆动环境定义 DDPG 超参数。

# DDPG 在 Pendulum-v1 上的超参数
BUFFER_SIZE = int(1e6)     # 回放缓存容量
BATCH_SIZE = 128           # 更新的小批量大小
GAMMA_DDPG = 0.99          # 折扣因子
TAU = 1e-3                 # 目标网络的软更新因子
ACTOR_LR_DDPG = 1e-4       # 演员的学习率
CRITIC_LR_DDPG = 1e-3      # 评论家的学习率（通常高于演员）
WEIGHT_DECAY = 0           # 评论家优化器的 L2 权重衰减（可选）

NOISE_STD_DEV = 0.2        # 高斯探索噪声的标准差
NOISE_DECAY = 0.999        # 噪声标准差的衰减因子（可选退火）
MIN_NOISE_STD_DEV = 0.01   # 噪声标准差的最小值

NUM_EPISODES_DDPG = 100    # 训练回合数
MAX_STEPS_PER_EPISODE_DDPG = 500 # 摆动环境每回合的最大步数
UPDATE_EVERY = 1           # 每隔多少步执行一次更新（例如，每步一次）
NUM_UPDATES = 1            # 每个 UPDATE_EVERY 区间内的更新步数

初始化

初始化演员、评论家、目标网络、优化器、回放缓存和噪声过程。

# 确保环境创建成功
if env is None:
    raise RuntimeError("无法创建 Gymnasium 环境 'Pendulum-v1'。请确保已安装 gymnasium。")

# 初始化网络
actor_ddpg = ActorNetwork(n_observations_ddpg, n_actions_ddpg, action_high).to(device)
critic_ddpg = CriticNetwork(n_observations_ddpg, n_actions_ddpg).to(device)

# 初始化目标网络（最初硬拷贝）
target_actor_ddpg = ActorNetwork(n_observations_ddpg, n_actions_ddpg, action_high).to(device)
target_critic_ddpg = CriticNetwork(n_observations_ddpg, n_actions_ddpg).to(device)
target_actor_ddpg.load_state_dict(actor_ddpg.state_dict())
target_critic_ddpg.load_state_dict(critic_ddpg.state_dict())

# 初始化优化器
actor_optimizer_ddpg = optim.Adam(actor_ddpg.parameters(), lr=ACTOR_LR_DDPG)
critic_optimizer_ddpg = optim.Adam(critic_ddpg.parameters(), lr=CRITIC_LR_DDPG, weight_decay=WEIGHT_DECAY)

# 初始化回放缓存
memory_ddpg = ReplayMemory(BUFFER_SIZE)

# 初始化噪声过程
noise = GaussianNoise(n_actions_ddpg, std_dev=NOISE_STD_DEV)
current_noise_std_dev = NOISE_STD_DEV

# 用于绘图的列表
ddpg_episode_rewards = []
ddpg_episode_actor_losses = []
ddpg_episode_critic_losses = []

训练循环

DDPG 训练循环。

print("开始在 Pendulum-v1 上训练 DDPG...")

# --- DDPG 训练循环 ---
total_steps = 0
for i_episode in range(1, NUM_EPISODES_DDPG + 1):
    # 重置环境和噪声
    state_np, info = env.reset()
    state = torch.from_numpy(state_np).float().to(device)
    noise.reset()
    noise.std_dev = current_noise_std_dev # 设置当前噪声水平
    
    episode_reward = 0
    actor_losses = []
    critic_losses = []

    for t in range(MAX_STEPS_PER_EPISODE_DDPG):
        # --- 动作选择 --- 
        actor_ddpg.eval() # 将演员设置为评估模式以选择动作
        with torch.no_grad():
            action_deterministic = actor_ddpg(state)
        actor_ddpg.train() # 恢复训练模式
        
        # 添加探索噪声
        action_noise = noise.get_noise()
        action_noisy = action_deterministic.cpu().numpy() + action_noise # 在 CPU 上添加噪声
        
        # 将动作裁剪到环境的范围内
        action_clipped = np.clip(action_noisy, action_low, action_high)

        # --- 环境交互 --- 
        next_state_np, reward, terminated, truncated, _ = env.step(action_clipped)
        done = terminated or truncated
        
        # --- 存储经验 --- 
        # 将数据转换为张量以便存储（存储执行的动作）
        action_tensor = torch.from_numpy(action_clipped).float() # 存储执行的动作
        next_state_tensor = torch.from_numpy(next_state_np).float()
        # 注意：状态已经是张量
        memory_ddpg.push(state, action_tensor, reward, next_state_tensor, done)

        state = next_state_tensor.to(device) # 更新状态以供下次循环使用
        episode_reward += reward
        total_steps += 1

        # --- 更新网络 --- 
        if len(memory_ddpg) > BATCH_SIZE and total_steps % UPDATE_EVERY == 0:
            for _ in range(NUM_UPDATES):
                c_loss, a_loss = update_ddpg(
                    memory_ddpg, BATCH_SIZE, 
                    actor_ddpg, critic_ddpg,
                    target_actor_ddpg, target_critic_ddpg,
                    actor_optimizer_ddpg, critic_optimizer_ddpg,
                    GAMMA_DDPG, TAU
                )
                critic_losses.append(c_loss)
                actor_losses.append(a_loss)

        if done:
            break
            
    # --- 回合结束 --- 
    ddpg_episode_rewards.append(episode_reward)
    ddpg_episode_actor_losses.append(np.mean(actor_losses) if actor_losses else 0)
    ddpg_episode_critic_losses.append(np.mean(critic_losses) if critic_losses else 0)
    
    # 退火噪声
    current_noise_std_dev = max(MIN_NOISE_STD_DEV, current_noise_std_dev * NOISE_DECAY)
    
    # 打印进度
    if i_episode % 10 == 0:
        avg_reward = np.mean(ddpg_episode_rewards[-10:])
        avg_actor_loss = np.mean(ddpg_episode_actor_losses[-10:])
        avg_critic_loss = np.mean(ddpg_episode_critic_losses[-10:])
        print(f"回合 {i_episode}/{NUM_EPISODES_DDPG} | 平均奖励：{avg_reward:.2f} | 演员损失：{avg_actor_loss:.4f} | 评论家损失：{avg_critic_loss:.4f} | 噪声标准差：{current_noise_std_dev:.3f}")

print("Pendulum-v1 训练完成（DDPG）。")

开始在 Pendulum-v1 上训练 DDPG...
回合 10/100 | 平均奖励：-1490.10 | 演员损失：13.9089 | 评论家损失：1.2726 | 噪声标准差：0.198
回合 20/100 | 平均奖励：-1443.33 | 演员损失：26.3751 | 评论家损失：3.1495 | 噪声标准差：0.196
回合 30/100 | 平均奖励：-1376.16 | 演员损失：38.1891 | 评论家损失：7.6305 | 噪声标准差：0.194
回合 40/100 | 平均奖励：-951.15 | 演员损失：46.8234 | 评论家损失：11.8599 | 噪声标准差：0.192
回合 50/100 | 平均奖励：-870.70 | 演员损失：53.7064 | 评论家损失：12.6563 | 噪声标准差：0.190
回合 60/100 | 平均奖励：-359.14 | 演员损失：56.8262 | 评论家损失：15.7296 | 噪声标准差：0.188
回合 70/100 | 平均奖励：-435.37 | 演员损失：57.6520 | 评论家损失：17.4160 | 噪声标准差：0.186
回合 80/100 | 平均奖励：-381.79 | 演员损失：58.4119 | 评论家损失：19.1516 | 噪声标准差：0.185
回合 90/100 | 平均奖励：-115.01 | 演员损失：58.0655 | 评论家损失：20.3253 | 噪声标准差：0.183
回合 100/100 | 平均奖励：-240.34 | 演员损失：56.7522 | 评论家损失：22.7741 | 噪声标准差：0.181
Pendulum-v1 训练完成（DDPG）。

可视化学习过程

绘制回合奖励和平均损失。

# 绘制 DDPG 在 Pendulum-v1 上的结果
plt.figure(figsize=(18, 4))

# 回合奖励
plt.subplot(1, 3, 1)
plt.plot(ddpg_episode_rewards)
plt.title('DDPG 摆动：回合奖励')
plt.xlabel('回合')
plt.ylabel('总奖励')
plt.grid(True)
# 添加移动平均值
if len(ddpg_episode_rewards) >= 10:
    rewards_ma_ddpg = np.convolve(ddpg_episode_rewards, np.ones(10)/10, mode='valid')
    plt.plot(np.arange(len(rewards_ma_ddpg)) + 9, rewards_ma_ddpg, label='10 回合移动平均', color='orange')
    plt.legend()

# 评论家损失
plt.subplot(1, 3, 2)
plt.plot(ddpg_episode_critic_losses)
plt.title('DDPG 摆动：平均评论家损失')
plt.xlabel('回合')
plt.ylabel('均方误差')
plt.grid(True)
if len(ddpg_episode_critic_losses) >= 10:
    closs_ma_ddpg = np.convolve(ddpg_episode_critic_losses, np.ones(10)/10, mode='valid')
    plt.plot(np.arange(len(closs_ma_ddpg)) + 9, closs_ma_ddpg, label='10 回合移动平均', color='orange')
    plt.legend()

# 演员损失
plt.subplot(1, 3, 3)
plt.plot(ddpg_episode_actor_losses)
plt.title('DDPG 摆动：平均演员损失')
plt.xlabel('回合')
plt.ylabel('平均 -Q 值')
plt.grid(True)
if len(ddpg_episode_actor_losses) >= 10:
    aloss_ma_ddpg = np.convolve(ddpg_episode_actor_losses, np.ones(10)/10, mode='valid')
    plt.plot(np.arange(len(aloss_ma_ddpg)) + 9, aloss_ma_ddpg, label='10 回合移动平均', color='orange')
    plt.legend()

plt.tight_layout()
plt.show()

DDPG 学习曲线分析（摆动环境）：

回合奖励（左图）：
从大约 -1500 到 -200，总奖励呈现出明显的上升趋势（变得不那么负），这表明智能体在解决摆动任务上取得了显著进步。这种任务对 DDPG 来说比较敏感，因此奖励的波动很大，但移动平均线确认了积极的学习趋势。
平均评论家损失（中图）：
评论家的均方误差损失在整个训练过程中意外地增加了。虽然有些反直觉，但这在 DDPG 中很常见。随着策略的改进和探索更高价值（不那么负）的状态-动作对，评论家不断调整以预测这些增加的目标 Q 值，导致损失上升，而不是收敛到零。不过，这也可能暗示学习过程中存在一些不稳定性。
平均演员损失（右图）：
这个图（代表演员动作的平均 Q 值）显示出强劲且平滑的上升趋势，与奖励的改善密切相关。这表明演员成功地学习到了评论家评价越来越好的动作（导致更高的 Q 值）。末尾的平稳趋势表明策略已经收敛到一个有效的解决方案。

总体结论：
DDPG 在摆动任务上取得了显著的学习成果，将奖励推向了更好的值。演员有效地根据评论家的评价优化了策略。尽管评论家损失的增加值得关注（可能表明评论家难以跟上演员的步伐或适应变化的价值尺度），但总体奖励趋势确认了成功的学习，尽管存在 DDPG 常见的波动。

分析学习到的策略（测试）

通过在环境中运行训练好的 DDPG 智能体（无噪声，确定性动作），可视化其表现，运行几回合。

def test_ddpg_agent(actor_net: ActorNetwork, 
                    env_instance: gym.Env, 
                    num_episodes: int = 5, 
                    render: bool = False, # 设置为 True 以可视化
                    seed_offset: int = 1000) -> None:
    """
    测试训练好的 DDPG 智能体（确定性动作）。
    
    参数：
    - actor_net：训练好的演员网络。
    - env_instance：环境实例。
    - num_episodes：测试回合数。
    - render：如果为 True，则尝试渲染环境。
    - seed_offset：种子偏移量，用于在测试中随机化环境。
    """
    if env_instance is None:
        print("环境不可用，无法进行测试。")
        return
        
    actor_net.eval() # 将演员设置为评估模式（非常重要！）
    
    print(f"\n--- 测试 DDPG 智能体（{num_episodes} 回合） ---")
    all_rewards = []
    for i in range(num_episodes):
        state_np, info = env_instance.reset(seed=seed + seed_offset + i) # 使用不同的种子进行测试
        state = torch.from_numpy(state_np).float().to(device)
        episode_reward = 0
        done = False
        t = 0
        while not done:
            if render:
                try:
                    # 尝试渲染（可能需要额外的环境/系统设置）
                    env_instance.render()
                    time.sleep(0.01) # 稍微减慢渲染速度
                except Exception as e:
                    print(f"渲染失败：{e}。禁用渲染。")
                    render = False # 如果渲染失败，则禁用渲染
            
            with torch.no_grad():
                # 确定性地选择动作（无噪声）
                action = actor_net(state).cpu().numpy()
            
            # 在测试中仍然需要裁剪动作
            action_clipped = np.clip(action, env_instance.action_space.low, env_instance.action_space.high)
            
            next_state_np, reward, terminated, truncated, _ = env_instance.step(action_clipped)
            done = terminated or truncated
            state = torch.from_numpy(next_state_np).float().to(device)
            episode_reward += reward
            t += 1
        
        print(f"测试回合 {i+1}：奖励 = {episode_reward:.2f}，长度 = {t}")
        all_rewards.append(episode_reward)
        if render:
             env_instance.close() # 关闭渲染窗口

    print(f"--- 测试完成。平均奖励：{np.mean(all_rewards):.2f} ---")

# 运行测试回合（确保环境仍然可用）
test_ddpg_agent(actor_ddpg, env, num_episodes=3, render=False) # 如果有显示设置，可以设置 render=True

--- 测试 DDPG 智能体（3 回合） ---
测试回合 1：奖励 = -130.24，长度 = 200
测试回合 2：奖励 = -118.55，长度 = 200
测试回合 3：奖励 = -369.77，长度 = 200
--- 测试完成。平均奖励：-206.19 ---

DDPG 中常见的挑战及解决方案

挑战 1：对超参数敏感

问题：DDPG 对学习率、目标更新率 ( $\tau$ )、噪声参数、网络架构和批量大小都非常敏感。
解决方案：
- 仔细调整：从已知适用于该环境的良好值开始，系统地进行调整。
- 减小 $\tau$ ：更慢的目标更新（更小的 $\tau$ ）通常可以提高稳定性。
- 使用不同的学习率：为演员和评论家使用不同的（通常是更低的）学习率可能会有帮助。
- 批量归一化：在某些情况下，可以在网络层中使用批量归一化来稳定学习。

挑战 2：Q 值高估

问题：评论家可能会高估 Q 值，尤其是在使用函数近似时。这可能导致演员学习到一个次优的策略，利用这些高估的 Q 值。
解决方案：
- TD3（双延迟 DDPG）：DDPG 的直接继任者，通过使用双评论家（取最小目标）、延迟策略更新和目标策略平滑来解决这个问题。
- 目标网络的使用：与不使用目标网络相比，目标网络已经在一定程度上缓解了这个问题。

挑战 3：连续空间中的探索

问题：简单的噪声（如高斯噪声）可能不足以有效地探索复杂的状态-动作空间。
解决方案：
- 相关噪声（奥恩斯坦-乌伦贝克）：在原始 DDPG 论文中使用，鼓励更一致的探索轨迹。
- 参数空间噪声：直接向演员的参数添加噪声，而不是动作，可能会导致更一致的探索。
- 自适应噪声：根据性能或演员与目标演员参数之间的距离调整噪声规模。

挑战 4：复杂任务的学习速度慢

问题：虽然由于离线策略学习，DDPG 的样本效率很高，但在非常困难的任务上，收敛速度仍然可能很慢。
解决方案：
- 优先经验回放（PER）：从回放缓存中更频繁地采样重要的转换。
- TD3/SAC：继任算法通常学习速度更快、更稳健。
- 分布式 DDPG（例如，Ape-X DDPG）：使用多个演员并行收集经验，喂给中央学习器。

总结

深度确定性策略梯度（DDPG）成功地将演员-评论家方法扩展到连续动作空间，通过学习确定性策略并利用 DQN 中的技术（如回放缓存和目标网络）实现稳定的离线策略学习。它在处理机器人技术和连续控制任务时表现出色。

尽管 DDPG 对超参数比较敏感，有时会出现 Q 值高估的问题，但它的核心概念——离线策略演员-评论家学习、确定性策略和目标网络——为更先进、更稳健的算法（如 TD3 和 SAC）铺平了道路。理解 DDPG 是解决强化学习中连续控制问题的关键。

你可能感兴趣的:(复现强化学习RL算法,python,开发语言,人工智能,机器学习,神经网络,强化学习,RL)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
神经形态计算如何突破冯·诺依曼架构限制？ AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构架构 ai
神经形态计算如何突破冯·诺依曼架构限制？关键词：神经形态计算、冯·诺依曼架构、内存墙、存算一体、脉冲神经网络、类脑芯片、低功耗计算摘要：本文将从“冯·诺依曼架构的前世今生”讲起，用“图书馆管理员搬书”的生活案例类比其核心矛盾，再通过“人脑神经元工作模式”的比喻引入神经形态计算的核心原理。我们将一步步拆解冯·诺依曼架构的三大限制（内存墙、高功耗、非结构化数据处理弱），并对应解析神经形态计算的三大突破
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul