AI仙人掌

REINFORCE蒙特卡罗策略梯度算法详解：python从零实现

向所有学习者致敬！

“学习不是装满一桶水，而是点燃一把火。” —— 叶芝

我的博客主页： https://lizheng.blog.csdn.net

欢迎点击加入AI人工智能社区！

让我们一起努力，共创AI未来！

好的！我会按照你的要求，认真完成翻译任务，确保内容完整、准确且符合要求。以下是翻译后的 Markdown 文档：

引言

强化学习（Reinforcement Learning, RL）的目标是训练智能体（agent），使其能够在环境中做出一系列决策，以最大化累积奖励。虽然基于价值的方法（如 Q-learning 和 DQN）会学习状态-动作对的价值，但基于策略的方法会直接学习策略，即从状态到动作（或动作概率）的映射。REINFORCE，也称为蒙特卡洛策略梯度，是一种基础的策略梯度算法。

文章目录

- - 向所有学习者致敬！
  - 欢迎[点击加入AI人工智能社区](https://bbs.csdn.net/forums/b8786ecbbd20451bbd20268ed52c0aad?joinKey=bngoppzm57nz-0m89lk4op0-1-315248b33aafff0ea7b)！
- 引言
- REINFORCE 是什么？
- - 为什么选择策略梯度？
- REINFORCE 的应用场景和使用方式
- REINFORCE 的数学基础
- - 策略梯度定理回顾（直觉）
  - REINFORCE 的目标函数
  - REINFORCE 的梯度估计器
  - 计算折扣回报（蒙特卡洛）
- REINFORCE 的逐步解释
- REINFORCE 的关键组件
- - 策略网络
  - 动作选择（采样）
  - 轨迹收集
  - 折扣回报计算
  - 损失函数（策略梯度目标）
  - 超参数
- 实践示例：自定义网格世界
设置环境
创建自定义环境
实现 REINFORCE 算法
- - 定义策略网络
  - 动作选择（从策略中采样）
  - 计算回报
  - 优化步骤（策略更新）
运行 REINFORCE 算法
- - 超参数设置
  - 初始化
  - 训练循环
可视化学习过程
分析学习到的策略（可选可视化）
- REINFORCE 中的常见挑战及解决方案
- 结论

REINFORCE 是什么？

REINFORCE 是一种直接学习参数化策略 $\pi(a|s; \theta)$ 的算法，而无需先显式学习一个价值函数。它的原理如下：

执行当前策略 $\pi(a|s; \theta)$ ，生成完整的经验轨迹（episode）： $s_0, a_0, r_1, s_1, a_1, r_2, ..., s_T)$ 。
对于轨迹中的每一步 $t$ ，计算从该步开始直到结束的总折扣回报 $G_t = \sum_{k=t}^T \gamma^{k-t} r_{k+1}$ 。
使用梯度上升更新策略参数 $\theta$ ，以增加导致高回报 $G_t$ 的动作 $a_t$ 的概率，并减少导致低回报的动作的概率。

它被称为蒙特卡洛方法，因为它使用整个轨迹的完整回报 $G_t$ 来更新策略，而不是像 Q-learning 或 Actor-Critic 方法那样从估计值中进行引导（bootstrapping）。

为什么选择策略梯度？

策略梯度方法相比纯基于价值的方法（如 DQN）具有以下优势：

连续动作空间：它们可以自然地处理连续动作空间，而 DQN 主要用于离散动作。
随机策略：它们可以学习随机策略（ $\pi(a|s)$ 给出概率），在部分可观测环境或需要鲁棒性时非常有用。
概念上更简单（在某些方面）：直接优化策略有时比估计价值函数更直接，尤其是当价值函数复杂时。

然而，像 REINFORCE 这样的基础策略梯度方法通常由于蒙特卡洛采样而导致梯度估计的方差较高，这可能导致收敛速度比 DQN 或 Actor-Critic 方法更慢或更不稳定。

REINFORCE 的应用场景和使用方式

REINFORCE 是理解更高级的策略梯度和 Actor-Critic 方法的基础。由于其高方差限制了其在复杂、大规模问题中的直接应用，相比最先进的算法，它更适合以下场景：

简单的强化学习基准问题：例如 CartPole、Acrobot 或自定义网格世界，这些场景的轨迹较短，方差可控。
学习随机策略：当需要概率性动作选择时。
教学目的：它为理解策略梯度学习的核心概念提供了一个清晰的入门。

REINFORCE 适用于以下情况：

目标是直接学习策略。
环境允许在更新之前生成完整的轨迹。
动作空间可以是离散的或连续的（尽管我们的示例使用离散动作）。
可以接受高方差的更新，或者可以通过基线（baseline）等方法进行管理（尽管这里没有实现）。
它是在线策略，即生成数据的策略与正在改进的策略相同。旧策略的数据不能轻易重用（与 DQN 的离线策略性质不同，DQN 使用重放缓冲区）。

REINFORCE 的数学基础

策略梯度定理回顾（直觉）

目标是找到策略参数 $\theta$ ，以最大化期望的总折扣回报，通常记为 $J(\theta)$ 。策略梯度定理提供了一种计算该目标关于策略参数的梯度的方法：
$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t | s_t) Q^{\pi_\theta}(s_t, a_t) \right]$
其中 $\tau$ 是使用策略 $\pi_\theta$ 采样的轨迹， $Q^{\pi_\theta}(s_t, a_t)$ 是在策略 $\pi_\theta$ 下的动作价值函数。

REINFORCE 的目标函数

REINFORCE 使用蒙特卡洛回报 $G_t = \sum_{k=t}^T \gamma^{k-t} r_{k+1}$ 作为 $Q^{\pi_\theta}(s_t, a_t)$ 的无偏估计。梯度则变为：
$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T G_t \nabla_\theta \log \pi_\theta(a_t | s_t) \right]$

我们希望对 $J(\theta)$ 进行梯度上升。这相当于对负目标函数进行梯度下降，从而得到实现中常用的损失函数：
$L(\theta) = - \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T G_t \log \pi_\theta(a_t | s_t) \right]$

在实践中，我们通过当前策略生成的样本（轨迹）来近似期望。

REINFORCE 的梯度估计器

对于单个轨迹 $\tau$ ，梯度估计为 $\sum_{t=0}^T G_t \nabla_\theta \log \pi_\theta(a_t | s_t)$ 。其中 $\nabla_\theta \log \pi_\theta(a_t | s_t)$ 通常被称为“资格向量”（eligibility vector）。它表示在参数空间中增加在状态 $s_t$ 下采取动作 $a_t$ 的对数概率的方向。这个方向通过回报 $G_t$ 进行缩放。如果 $G_t$ 很高，我们就会显著朝这个方向移动；如果 $G_t$ 很低（或为负），我们会远离这个方向。

计算折扣回报（蒙特卡洛）

在完成一个轨迹后，我们得到了奖励序列 $r_1, r_2, ..., r_T$ ，然后计算每个时间步 $t$ 的折扣回报：
$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + ... + \gamma^{T-t} r_T$
通常可以通过从轨迹的末尾向后迭代来高效计算：
$G_T = 0$ （假设 $r_{T+1}=0$ 或取决于问题设置）
$G_{T-1} = r_T + \gamma G_T$
$G_{T-2} = r_{T-1} + \gamma G_{T-1}$
……依此类推，直到 $G_0$ 。

方差降低（基线）：一种常见的技术（尽管在这个基础示例中没有实现）是从回报中减去一个依赖于状态的基线 $b(s_t)$ （通常是状态价值函数 $V(s_t)$ ）：
$\nabla_\theta J(\theta) \approx \sum_t (G_t - b(s_t)) \nabla_\theta \log \pi_\theta(a_t|s_t)$
这不会改变期望梯度，但可以显著降低其方差。

REINFORCE 的逐步解释

初始化：策略网络 $\pi(a|s; \theta)$ ，带有随机权重 $\theta$ ，折扣因子 $\gamma$ ，学习率 $\alpha$ 。
对于每个轨迹：
a. 按照策略 $\pi(a|s; \theta)$ 生成完整的轨迹 $\tau = (s_0, a_0, r_1, s_1, a_1, ..., s_{T-1}, a_{T-1}, r_T, s_T)$ ：
i. 对于 $t = 0, 1, ..., T - 1$ ：
- 观察状态 $s_t$ 。
- 从 $\pi(\cdot | s_t; \theta)$ 中采样动作 $a_t$ 。
- 执行 $a_t$ ，观察奖励 $r_{t+1}$ 和下一个状态 $s_{t+1}$ 。
- 存储 $s_t, a_t, r_{t+1}$ ，以及 $\log \pi_\theta(a_t | s_t)$ 。
b. 计算回报：对于 $t = 0, 1, ..., T - 1$ ：
- 计算折扣回报 $G_t = \sum_{k=t}^{T-1} \gamma^{k-t} r_{k+1}$ 。
c. 更新策略：执行梯度上升（或对负目标函数进行梯度下降）：
- 计算损失 $-\sum_{t=0}^{T-1} G_t \log \pi_\theta(a_t | s_t)$ 。
- 更新权重： $\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)$ （或使用优化器对 $L$ 进行优化）。
重复：直到收敛或达到最大轨迹数。

REINFORCE 的关键组件

策略网络

核心函数逼近器。学习将状态映射到动作概率。
架构取决于状态表示（对于向量使用 MLP，对于图像使用 CNN）。
在隐藏层中使用非线性激活函数（如 ReLU）。
输出层通常使用 Softmax 激活函数，用于离散动作空间，以产生动作的概率分布。

动作选择（采样）

从策略网络 $\pi(a|s; \theta)$ 输出的概率分布中采样动作。
这种方法本身就提供了探索性。随着学习的进行，更好动作的概率会增加，从而导致更多的利用性。
需要存储所选动作的对数概率（ $\log \pi(a_t|s_t; \theta)$ ），以便进行梯度计算。

轨迹收集

REINFORCE 是在线策略且基于轨迹的。
它需要使用当前策略收集完整的轨迹（状态、动作、奖励序列），然后才能进行更新。
存储每个步骤的奖励、状态、动作和对数概率。

折扣回报计算

在一个轨迹完成后，计算每个时间步 $t$ 的 $G_t$ 。
该值表示从该点开始在该特定轨迹中实际收到的累积奖励。

损失函数（策略梯度目标）

通常是 $-\sum_t G_t \log \pi(a_t|s_t; \theta)$ 。
最大化导致高回报的动作的概率。
通常会对回报 $G_t$ 进行标准化（减去均值，除以标准差），以稳定学习。

超参数

关键超参数包括学习率、折扣因子 $\gamma$ 和网络架构。
性能可能对这些参数敏感，尤其是学习率，因为梯度估计的方差较高。

实践示例：自定义网格世界

我们将使用与 DQN 示例相同的简单自定义网格世界环境来进行比较，并保持风格一致。

环境描述：

网格大小：10x10。
状态：代理的 (row, col) 位置。表示为归一化向量 [row/10, col/10]，用于网络输入。
动作：4 个离散动作：0（上），1（下），2（左），3（右）。
起始状态：(0, 0)。
目标状态：(9, 9)。
奖励：
- 到达目标状态 (9, 9) 时 +10。
- 碰到墙壁（试图移出网格）时 -1。
- 其他步骤 -0.1（小成本，鼓励效率）。
终止：当代理到达目标或达到最大步数时，轨迹结束。

设置环境

导入必要的库并设置环境。

# 导入用于数值计算、绘图和实用功能的库
import numpy as np
import matplotlib.pyplot as plt
import random
import math
from collections import namedtuple, deque # Deque 在 REINFORCE 中可能不需要
from itertools import count
from typing import List, Tuple, Dict, Optional

# 导入 PyTorch 用于构建和训练神经网络
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.distributions import Categorical # 用于采样动作

# 设置设备，如果可用则使用 GPU，否则回退到 CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"使用设备：{device}")

# 设置随机种子以确保运行结果可复现
seed = 42
random.seed(seed)  # Python 随机模块的种子
np.random.seed(seed)  # NumPy 的种子
torch.manual_seed(seed)  # PyTorch（CPU）的种子
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(seed)  # PyTorch（GPU）的种子

# 为 Jupyter Notebook 启用内联绘图
%matplotlib inline

使用设备：cpu

创建自定义环境

我们重用了 DQN 笔记本中的完全相同的 GridEnvironment 类。这确保了可比性，并符合参考风格。

# 自定义网格世界环境（与 DQN 笔记本中的完全相同）
class GridEnvironment:
    """
    一个简单的 10x10 网格世界环境。
    状态：(row, col)，表示为归一化向量 [row/10, col/10]。
    动作：0（上），1（下），2（左），3（右）。
    奖励：到达目标 +10，碰到墙壁 -1，每步 -0.1。
    """

    def __init__(self, rows: int = 10, cols: int = 10) -> None:
        """
        初始化网格世界环境。

        参数：
        - rows (int): 网格的行数。
        - cols (int): 网格的列数。
        """
        self.rows: int = rows
        self.cols: int = cols
        self.start_state: Tuple[int, int] = (0, 0)  # 起始位置
        self.goal_state: Tuple[int, int] = (rows - 1, cols - 1)  # 目标位置
        self.state: Tuple[int, int] = self.start_state  # 当前状态
        self.state_dim: int = 2  # 状态由 2 个坐标（row, col）表示
        self.action_dim: int = 4  # 4 个离散动作：上、下、左、右

        # 动作映射：将动作索引映射到 (row_delta, col_delta)
        self.action_map: Dict[int, Tuple[int, int]] = {
            0: (-1, 0),  # 上
            1: (1, 0),   # 下
            2: (0, -1),  # 左
            3: (0, 1)    # 右
        }

    def reset(self) -> torch.Tensor:
        """
        将环境重置到起始状态。

        返回：
            torch.Tensor：初始状态作为归一化张量。
        """
        self.state = self.start_state
        return self._get_state_tensor(self.state)

    def _get_state_tensor(self, state_tuple: Tuple[int, int]) -> torch.Tensor:
        """
        将 (row, col) 元组转换为网络所需的归一化张量。

        参数：
        - state_tuple (Tuple[int, int]): 状态表示为元组 (row, col)。

        返回：
            torch.Tensor：归一化后的状态作为张量。
        """
        # 将坐标归一化到 0 和 1 之间（根据 0 索引调整归一化）
        normalized_state: List[float] = [
            state_tuple[0] / (self.rows - 1) if self.rows > 1 else 0.0,
            state_tuple[1] / (self.cols - 1) if self.cols > 1 else 0.0
        ]
        return torch.tensor(normalized_state, dtype=torch.float32, device=device)

    def step(self, action: int) -> Tuple[torch.Tensor, float, bool]:
        """
        根据给定的动作执行一步。

        参数：
            action (int): 要执行的动作（0：上，1：下，2：左，3：右）。

        返回：
            Tuple[torch.Tensor, float, bool]：
                - next_state_tensor (torch.Tensor)：下一个状态作为归一化张量。
                - reward (float)：该动作的奖励。
                - done (bool)：是否结束轨迹。
        """
        # 如果已经到达目标状态，则返回当前状态，奖励为 0，done=True
        if self.state == self.goal_state:
            return self._get_state_tensor(self.state), 0.0, True

        # 获取该动作对应的行和列增量
        dr, dc = self.action_map[action]
        current_row, current_col = self.state
        next_row, next_col = current_row + dr, current_col + dc

        # 默认步进成本
        reward: float = -0.1
        hit_wall: bool = False

        # 检查该动作是否会导致移出边界
        if not (0 <= next_row < self.rows and 0 <= next_col < self.cols):
            # 保持在相同状态并受到惩罚
            next_row, next_col = current_row, current_col
            reward = -1.0
            hit_wall = True

        # 更新状态
        self.state = (next_row, next_col)
        next_state_tensor: torch.Tensor = self._get_state_tensor(self.state)

        # 检查是否到达目标状态
        done: bool = (self.state == self.goal_state)
        if done:
            reward = 10.0  # 到达目标的奖励

        return next_state_tensor, reward, done

    def get_action_space_size(self) -> int:
        """
        返回动作空间的大小。

        返回：
            int：可能的动作数量（4）。
        """
        return self.action_dim

    def get_state_dimension(self) -> int:
        """
        返回状态表示的维度。

        返回：
            int：状态的维度（2）。
        """
        return self.state_dim

实例化自定义环境并验证其属性。

# 实例化 10x10 网格的自定义环境
custom_env = GridEnvironment(rows=10, cols=10)

# 获取动作空间大小和状态维度
n_actions_custom = custom_env.get_action_space_size()
n_observations_custom = custom_env.get_state_dimension()

# 打印环境的基本信息
print(f"自定义网格环境：")
print(f"大小：{custom_env.rows}x{custom_env.cols}")
print(f"状态维度：{n_observations_custom}")
print(f"动作维度：{n_actions_custom}")
print(f"起始状态：{custom_env.start_state}")
print(f"目标状态：{custom_env.goal_state}")

# 重置环境并打印起始状态的归一化状态张量
print(f"(0,0) 的示例状态张量：{custom_env.reset()}")

# 执行一个示例动作：向右移动（动作=3）并打印结果
next_s, r, d = custom_env.step(3) # 动作 3 对应向右移动
print(f"动作结果（动作=右）：下一个状态={next_s.cpu().numpy()}，奖励={r}，结束={d}")

# 再执行一个示例动作：向上移动（动作=0）并打印结果
# 这将碰到墙壁，因为代理在最上面一行
next_s, r, d = custom_env.step(0) # 动作 0 对应向上移动
print(f"动作结果（动作=上）：下一个状态={next_s.cpu().numpy()}，奖励={r}，结束={d}")

自定义网格环境：
大小：10x10
状态维度：2
动作维度：4
起始状态：(0, 0)
目标状态：(9, 9)
(0,0) 的示例状态张量：tensor([0., 0.])
动作结果（动作=右）：下一个状态=[0.         0.11111111]，奖励=-0.1，结束=False
动作结果（动作=上）：下一个状态=[0.         0.11111111]，奖励=-1.0，结束=False

实现 REINFORCE 算法

现在，让我们实现核心组件：策略网络、动作选择机制（采样）、回报计算和策略更新步骤。

定义策略网络

我们使用 PyTorch 的 nn.Module 定义一个简单的多层感知机（MLP）。与 DQN 网络的主要区别在于输出层，它使用 nn.Softmax 产生动作概率。

# 定义策略网络架构
class PolicyNetwork(nn.Module):
    """ 用于 REINFORCE 的简单 MLP 策略网络 """
    def __init__(self, n_observations: int, n_actions: int):
        """
        初始化策略网络。

        参数：
        - n_observations (int): 状态空间的维度。
        - n_actions (int): 可能的动作数量。
        """
        super(PolicyNetwork, self).__init__()
        # 定义网络层（与 DQN 示例类似）
        self.layer1 = nn.Linear(n_observations, 128) # 输入层
        self.layer2 = nn.Linear(128, 128)           # 隐藏层
        self.layer3 = nn.Linear(128, n_actions)      # 输出层（动作对数几率）

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        通过网络进行前向传播以获取动作概率。

        参数：
        - x (torch.Tensor): 表示状态的输入张量。

        返回：
        - torch.Tensor：输出张量，表示动作概率（经过 Softmax）。
        """
        # 确保输入是浮点张量
        if not isinstance(x, torch.Tensor):
             x = torch.tensor(x, dtype=torch.float32, device=device)
        elif x.dtype != torch.float32:
             x = x.to(dtype=torch.float32)

        # 应用带有 ReLU 激活函数的层
        x = F.relu(self.layer1(x))
        x = F.relu(self.layer2(x))
        # 从输出层获取动作对数几率
        action_logits = self.layer3(x)
        # 应用 Softmax 以获取动作概率
        action_probs = F.softmax(action_logits, dim=-1) # 使用 dim=-1 以确保对批次通用
        return action_probs

动作选择（从策略中采样）

此函数通过从策略网络输出的概率分布中采样来选择动作。它还返回所选动作的对数概率，这是 REINFORCE 更新所需的。

# REINFORCE 的动作选择
def select_action_reinforce(state: torch.Tensor, policy_net: PolicyNetwork) -> Tuple[int, torch.Tensor]:
    """
    通过从策略网络输出的分布中采样来选择动作。

    参数：
    - state (torch.Tensor)：当前状态作为张量，形状为 [state_dim]。
    - policy_net (PolicyNetwork)：用于估计动作概率的策略网络。

    返回：
    - Tuple[int, torch.Tensor]：
        - action (int)：所选动作的索引。
        - log_prob (torch.Tensor)：所选动作的对数概率。
    """
    # 如果网络有 dropout 或 batchnorm 层，则确保其处于评估模式（这里可选）
    # policy_net.eval() 

    # 从策略网络获取动作概率
    # 如果状态是单个实例 [state_dim]，则添加批次维度 [1, state_dim]
    if state.dim() == 1:
        state = state.unsqueeze(0)
    
    action_probs = policy_net(state)

    # 创建一个动作的分类分布
    # 如果之前添加了批次维度，则通过 squeeze(0) 获取单个状态的概率
    m = Categorical(action_probs.squeeze(0)) 
    
    # 从分布中采样一个动作
    action = m.sample()
    
    # 获取所采样动作的对数概率（用于梯度计算）
    log_prob = m.log_prob(action)

    # 如果需要，将网络恢复为训练模式
    # policy_net.train()

    # 返回动作索引（作为 int）及其对数概率（作为张量）
    return action.item(), log_prob

计算回报

此函数计算每个时间步 $t$ 的折扣回报 $G_t$ ，给定奖励列表。它可以选择性地标准化回报。

def calculate_discounted_returns(rewards: List[float], gamma: float, standardize: bool = True) -> torch.Tensor:
    """
    计算每个时间步 $t$ 的折扣回报 $G_t$。

    参数：
    - rewards (List[float])：在轨迹中收到的奖励列表。
    - gamma (float)：折扣因子。
    - standardize (bool)：是否标准化（归一化）回报（减去均值，除以标准差）。

    返回：
    - torch.Tensor：包含每个时间步的折扣回报的张量。
    """
    n_steps = len(rewards)
    returns = torch.zeros(n_steps, device=device, dtype=torch.float32)
    discounted_return = 0.0

    # 从后向前迭代奖励以计算折扣回报
    for t in reversed(range(n_steps)):
        discounted_return = rewards[t] + gamma * discounted_return
        returns[t] = discounted_return

    # 标准化回报（可选但通常有帮助）
    if standardize:
        mean_return = torch.mean(returns)
        std_return = torch.std(returns) + 1e-8 # 添加小 epsilon 以防止除以零
        returns = (returns - mean_return) / std_return

    return returns

优化步骤（策略更新）

此函数在完成一个轨迹后执行策略更新。它使用收集到的对数概率和计算出的回报来计算损失并执行反向传播。

def optimize_policy(
    log_probs: List[torch.Tensor], 
    returns: torch.Tensor, 
    optimizer: optim.Optimizer
) -> float:
    """
    使用 REINFORCE 更新规则对策略网络执行一步优化。

    参数：
    - log_probs (List[torch.Tensor])：在轨迹中采取的动作的对数概率列表。
    - returns (torch.Tensor)：轨迹中每个时间步的折扣回报张量。
    - optimizer (optim.Optimizer)：用于更新策略网络的优化器。

    返回：
    - float：轨迹的计算损失值。
    """
    # 将对数概率堆叠成一个张量
    log_probs_tensor = torch.stack(log_probs)

    # 计算 REINFORCE 损失：- (returns * log_probs)
    # 我们希望最大化 $E[G_t \cdot \log(\pi)]$，因此最小化 $-E[G_t \cdot \log(\pi)]$
    # 对整个轨迹步骤求和
    loss = -torch.sum(returns * log_probs_tensor)

    # 执行反向传播和优化
    optimizer.zero_grad()  # 清除之前的梯度
    loss.backward()       # 计算梯度
    optimizer.step()      # 更新策略网络参数

    return loss.item()    # 返回损失值以便记录

运行 REINFORCE 算法

设置超参数，初始化策略网络和优化器，然后运行主训练循环。

超参数设置

为应用于自定义网格世界的 REINFORCE 算法定义超参数。

# REINFORCE 在自定义网格世界的超参数
GAMMA_REINFORCE = 0.99         # 折扣因子
LR_REINFORCE = 1e-3            # 学习率（通常低于 DQN，较为敏感）
NUM_EPISODES_REINFORCE = 1500  # REINFORCE 通常需要更多轨迹，因为方差较高
MAX_STEPS_PER_EPISODE_REINFORCE = 200 # 每个轨迹的最大步数
STANDARDIZE_RETURNS = True     # 是否标准化回报

初始化

初始化策略网络和优化器。

# 重新实例化自定义 GridEnvironment
custom_env: GridEnvironment = GridEnvironment(rows=10, cols=10)

# 获取动作空间大小和状态维度
n_actions_custom: int = custom_env.get_action_space_size()  # 4 个动作
n_observations_custom: int = custom_env.get_state_dimension()  # 2 个状态维度

# 初始化策略网络
policy_net_reinforce: PolicyNetwork = PolicyNetwork(n_observations_custom, n_actions_custom).to(device)

# 初始化策略网络的优化器
optimizer_reinforce: optim.Adam = optim.Adam(policy_net_reinforce.parameters(), lr=LR_REINFORCE)

# 用于存储轨迹统计数据以便绘图的列表
episode_rewards_reinforce = []
episode_lengths_reinforce = []
episode_losses_reinforce = []

训练循环

在自定义网格世界环境中训练 REINFORCE 代理。注意与 DQN 的工作流程差异：我们需要先收集一个完整的轨迹，然后计算回报并更新策略。

print("开始在自定义网格世界上训练 REINFORCE...")

# 训练循环
for i_episode in range(NUM_EPISODES_REINFORCE):
    # 重置环境并获取初始状态张量
    state = custom_env.reset()
    
    # 用于存储当前轨迹数据的列表
    episode_log_probs: List[torch.Tensor] = []
    episode_rewards: List[float] = []
    
    # --- 生成一个轨迹 ---
    for t in range(MAX_STEPS_PER_EPISODE_REINFORCE):
        # 根据当前策略选择动作并存储对数概率
        action, log_prob = select_action_reinforce(state, policy_net_reinforce)
        episode_log_probs.append(log_prob)
        
        # 在环境中执行动作
        next_state, reward, done = custom_env.step(action)
        episode_rewards.append(reward)
        
        # 转移到下一个状态
        state = next_state
        
        # 如果轨迹结束，则退出
        if done:
            break
            
    # --- 轨迹结束，现在更新策略 ---
    
    # 计算轨迹的折扣回报
    returns = calculate_discounted_returns(episode_rewards, GAMMA_REINFORCE, STANDARDIZE_RETURNS)
    
    # 执行策略优化
    loss = optimize_policy(episode_log_probs, returns, optimizer_reinforce)
    
    # 存储轨迹统计数据
    total_reward = sum(episode_rewards)
    episode_rewards_reinforce.append(total_reward)
    episode_lengths_reinforce.append(t + 1)
    episode_losses_reinforce.append(loss)

    # 定期打印进度（例如，每 100 个轨迹）
    if (i_episode + 1) % 100 == 0:
        avg_reward = np.mean(episode_rewards_reinforce[-100:])
        avg_length = np.mean(episode_lengths_reinforce[-100:])
        avg_loss = np.mean(episode_losses_reinforce[-100:])
        print(
            f"轨迹 {i_episode+1}/{NUM_EPISODES_REINFORCE} | "
            f"最近 100 个轨迹的平均奖励：{avg_reward:.2f} | "
            f"平均长度：{avg_length:.2f} | "
            f"平均损失：{avg_loss:.4f}"
        )

print("自定义网格世界训练完成（REINFORCE）。")

开始在自定义网格世界上训练 REINFORCE...
轨迹 100/1500 | 最近 100 个轨迹的平均奖励：0.31 | 平均长度：43.90 | 平均损失：-2.5428
轨迹 200/1500 | 最近 100 个轨迹的平均奖励：5.83 | 平均长度：21.42 | 平均损失：-1.5049
轨迹 300/1500 | 最近 100 个轨迹的平均奖励：6.93 | 平均长度：20.16 | 平均损失：-1.6836
轨迹 400/1500 | 最近 100 个轨迹的平均奖励：7.20 | 平均长度：19.39 | 平均损失：-1.2332
轨迹 500/1500 | 最近 100 个轨迹的平均奖励：7.34 | 平均长度：19.16 | 平均损失：-1.0108
轨迹 600/1500 | 最近 100 个轨迹的平均奖励：7.43 | 平均长度：19.23 | 平均损失：-1.1386
轨迹 700/1500 | 最近 100 个轨迹的平均奖励：7.66 | 平均长度：18.73 | 平均损失：-0.2648
轨迹 800/1500 | 最近 100 个轨迹的平均奖励：7.96 | 平均长度：18.52 | 平均损失：-0.4335
轨迹 900/1500 | 最近 100 个轨迹的平均奖励：7.93 | 平均长度：18.57 | 平均损失：0.6314
轨迹 1000/1500 | 最近 100 个轨迹的平均奖励：7.95 | 平均长度：18.42 | 平均损失：1.5364
轨迹 1100/1500 | 最近 100 个轨迹的平均奖励：7.87 | 平均长度：18.45 | 平均损失：2.0860
轨迹 1200/1500 | 最近 100 个轨迹的平均奖励：7.95 | 平均长度：18.42 | 平均损失：1.9074
轨迹 1300/1500 | 最近 100 个轨迹的平均奖励：7.91 | 平均长度：18.44 | 平均损失：1.6792
轨迹 1400/1500 | 最近 100 个轨迹的平均奖励：7.85 | 平均长度：18.63 | 平均损失：1.1213
轨迹 1500/1500 | 最近 100 个轨迹的平均奖励：7.74 | 平均长度：18.60 | 平均损失：1.5478
自定义网格世界训练完成（REINFORCE）。

可视化学习过程

绘制 REINFORCE 代理在自定义网格世界环境中的学习结果（奖励、轨迹长度）。

# 绘制 REINFORCE 在自定义网格世界的训练结果
plt.figure(figsize=(20, 4))

# 奖励
plt.subplot(1, 3, 1)
plt.plot(episode_rewards_reinforce)
plt.title('REINFORCE 自定义网格：轨迹奖励')
plt.xlabel('轨迹')
plt.ylabel('总奖励')
plt.grid(True)
# 添加移动平均线
rewards_ma_reinforce = np.convolve(episode_rewards_reinforce, np.ones(100)/100, mode='valid')
if len(rewards_ma_reinforce) > 0: 
    plt.plot(np.arange(len(rewards_ma_reinforce)) + 99, rewards_ma_reinforce, label='100-轨迹移动平均', color='orange')
plt.legend()

# 长度
plt.subplot(1, 3, 2)
plt.plot(episode_lengths_reinforce)
plt.title('REINFORCE 自定义网格：轨迹长度')
plt.xlabel('轨迹')
plt.ylabel('步数')
plt.grid(True)
# 添加移动平均线
lengths_ma_reinforce = np.convolve(episode_lengths_reinforce, np.ones(100)/100, mode='valid')
if len(lengths_ma_reinforce) > 0:
    plt.plot(np.arange(len(lengths_ma_reinforce)) + 99, lengths_ma_reinforce, label='100-轨迹移动平均', color='orange')
plt.legend()

# 损失
plt.subplot(1, 3, 3)
plt.plot(episode_losses_reinforce)
plt.title('REINFORCE 自定义网格：轨迹损失')
plt.xlabel('轨迹')
plt.ylabel('损失')
plt.grid(True)
# 添加移动平均线
losses_ma_reinforce = np.convolve(episode_losses_reinforce, np.ones(100)/100, mode='valid')
if len(losses_ma_reinforce) > 0:
    plt.plot(np.arange(len(losses_ma_reinforce)) + 99, losses_ma_reinforce, label='100-轨迹移动平均', color='orange')
plt.legend()

plt.tight_layout()
plt.show()

REINFORCE 学习曲线分析（自定义网格世界）：

轨迹奖励（左图）：
- 代理在初期学习非常迅速，轨迹奖励在大约 150 个轨迹内迅速增加到接近最优水平。移动平均线确认了策略收敛到高奖励策略。然而，原始奖励在整个训练过程中仍然高度波动，这展示了由于使用噪声蒙特卡洛回报进行更新，基础 REINFORCE 算法的高方差特性。
轨迹长度（中图）：
- 该图强烈证实了高效学习，与奖励曲线的趋势一致。轨迹长度在初期急剧下降，迅速收敛到一个稳定的接近最优平均值（10x10 网格中最短路径为 18 步）。这表明代理成功地学习了一致地找到通往目标状态的高效路径。
轨迹损失（右图）：
- 策略梯度损失表现出极端的方差，直接反映了 REINFORCE 更新中使用的噪声蒙特卡洛回报估计。与 MSE 损失不同，它不会收敛到零，而是在初始学习阶段后趋于稳定。这种梯度估计的高方差是导致奖励曲线波动的主要原因。

总体结论：
REINFORCE 成功且迅速地解决了自定义网格世界任务，学习到了高效的策略以最大化奖励。图表清晰地展示了快速收敛的特性，但也突出了算法固有的高方差问题，尤其是在奖励信号和梯度估计方面。这种高方差是 REINFORCE 相比更先进的策略梯度或 Actor-Critic 方法的主要局限性。

分析学习到的策略（可选可视化）

我们将从 DQN 笔记本中改编策略网格可视化代码，以使用策略网络。它展示了每个状态的最可能动作（取策略输出的 argmax）。

def plot_reinforce_policy_grid(policy_net: PolicyNetwork, env: GridEnvironment, device: torch.device) -> None:
    """
    绘制由 REINFORCE 策略网络导出的贪婪策略。
    注意：显示的是最可能的动作，而不是采样动作。

    参数：
    - policy_net (PolicyNetwork)：训练好的策略网络。
    - env (GridEnvironment)：自定义网格环境。
    - device (torch.device)：设备（CPU/GPU）。

    返回：
    - None：显示策略网格图。
    """
    rows: int = env.rows
    cols: int = env.cols
    policy_grid: np.ndarray = np.empty((rows, cols), dtype=str)
    action_symbols: Dict[int, str] = {0: '↑', 1: '↓', 2: '←', 3: '→'}

    fig, ax = plt.subplots(figsize=(cols * 0.6, rows * 0.6))

    for r in range(rows):
        for c in range(cols):
            state_tuple: Tuple[int, int] = (r, c)
            if state_tuple == env.goal_state:
                policy_grid[r, c] = 'G'
                ax.text(c, r, 'G', ha='center', va='center', color='green', fontsize=12, weight='bold')
            else:
                state_tensor: torch.Tensor = env._get_state_tensor(state_tuple)
                with torch.no_grad():
                    state_tensor = state_tensor.unsqueeze(0)
                    # 获取动作概率
                    action_probs: torch.Tensor = policy_net(state_tensor)
                    # 选择最高概率的动作（贪婪动作）
                    best_action: int = action_probs.argmax(dim=1).item()

                policy_grid[r, c] = action_symbols[best_action]
                ax.text(c, r, policy_grid[r, c], ha='center', va='center', color='black', fontsize=12)

    ax.matshow(np.zeros((rows, cols)), cmap='Greys', alpha=0.1)
    ax.set_xticks(np.arange(-.5, cols, 1), minor=True)
    ax.set_yticks(np.arange(-.5, rows, 1), minor=True)
    ax.grid(which='minor', color='black', linestyle='-', linewidth=1)
    ax.set_xticks([])
    ax.set_yticks([])
    ax.set_title("REINFORCE 学习到的策略（最可能的动作）")
    plt.show()

# 绘制训练网络学习到的策略
print("\n绘制 REINFORCE 学习到的策略：")
plot_reinforce_policy_grid(policy_net_reinforce, custom_env, device)

REINFORCE 学习到的策略可视化：

通过可视化策略网格，我们可以直观地看到代理在每个状态下的最可能动作。从图中可以看出，策略在大部分状态下都指向目标位置（右下角），并且在靠近目标时，策略能够正确地引导代理避开墙壁并快速到达目标。

REINFORCE 中的常见挑战及解决方案

挑战 1：梯度估计的高方差

问题：使用完整的蒙特卡洛回报 $G_t$ 会使梯度估计变得嘈杂，因为一个轨迹中早期的一个好动作或坏动作可能会不当地影响所有前面动作的更新，即使这些动作与最终回报无关。
解决方案：
- 基线减法：从 $G_t$ 中减去一个依赖于状态的基线（如状态价值 $V(s_t)$ ）：更新公式为 $(G_t - V(s_t)) \nabla \log \pi$ 。这种方法不会改变梯度的期望值，但可以显著降低方差。不过，这需要学习 $V(s_t)$ ，从而引出了 Actor-Critic 方法。
- 标准化回报：在轨迹或批次内对回报进行归一化（减去均值，除以标准差）。这有助于稳定更新。
- 增加批次大小：在更新之前对多个轨迹的梯度进行平均（尽管这需要更多内存）。

挑战 2：收敛速度慢

问题：高方差和可能较小的学习步长会导致学习速度变慢。
解决方案：
- 调整学习率：仔细调整学习率至关重要。使用自适应学习率的优化器（如 Adam）可能会有所帮助。
- 使用基线：如上所述，降低方差可以加速收敛。
- Actor-Critic 方法：用从学习到的 critic（价值函数）中引导的 TD 误差代替蒙特卡洛回报 $G_t$ ，从而实现更快、方差更低的更新（例如 A2C、A3C）。

挑战 3：在线策略数据效率低

问题：REINFORCE 必须在每次策略更新后丢弃数据，使其不如 DQN 等离线策略方法那样样本高效。
解决方案：
- 重要性采样：在离线策略策略梯度方法（如 PPO）中使用的技术可以在一定程度上重用旧数据，但会增加复杂性。
- 接受这一局限性：对于交互成本较低或问题较简单的情况，简单在线策略更新的优点可能更为突出。

结论

REINFORCE 是强化学习中一种基础的策略梯度算法。它通过根据轨迹中获得的完整折扣回报调整动作概率，直接优化参数化的策略。其核心优势在于概念简单，能够处理各种动作空间并学习随机策略。

正如在自定义网格世界中所展示的，REINFORCE 可以学习到有效的策略。然而，由于其蒙特卡洛梯度估计的固有高方差特性，其实际应用通常受到限制，可能导致不稳定或收敛速度慢。通过使用基线减法和回报标准化等技术可以缓解这一问题。REINFORCE 为理解更先进且广泛使用的策略梯度和 Actor-Critic 方法（如 A2C、A3C、DDPG、PPO、SAC）奠定了基础，这些方法在保持其核心原理的同时，解决了其局限性，尤其是在方差和样本效率方面。

你可能感兴趣的:(复现强化学习RL算法,算法,python,开发语言)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在