十年一梦实验室

【机器学习】强化学习（四）-时序差分学习

蒙特卡洛算法需要使用完整的片段进行计算，这在有些问题中是不现实的，尤其是对于没有终止状态的问题。时序差分算法对此进行了改进

蒙特卡洛控制和时序差分学习有什么区别？

四、时序差分算法（Temporal Difference Learning, TD 学习）

4.1 时序差分（0）

4.2 Sarsa算法

4.3 Q学习（Q-learning）

4.4 Sarsa和Q-learning有什么区别？

4.5 示例代码

公共类：discrete.py plotting.py

离散环境的类 discrete.py，它继承自 gym 库的 Env 类，用于创建和管理强化学习的环境。它的主要功能是：

定义了环境的基本属性，如状态的数量，动作的数量，状态转移的概率，初始状态的分布，动作的空间，状态的空间等。
定义了环境的基本方法，如设置随机数种子，重置环境，执行一个动作，返回下一个状态，奖励，是否结束和附加信息等。
使用了 numpy 库，gym 库和 categorical_sample 函数来进行数值计算，环境管理和概率采样等操作。

# 导入 numpy 库，用于进行数值计算
import numpy as np


# 导入 gym 库，用于创建和管理强化学习的环境
from gym import Env, spaces
# 导入 gym 库的 seeding 模块，用于设置随机数种子
from gym.utils import seeding
# 导入 gym 库的 toy_text 模块的 categorical_sample 函数，用于从一个概率分布中采样一个类别
from gym.envs.toy_text.utils import categorical_sample


# 定义一个离散环境的类，继承自 gym 库的 Env 类
class DiscreteEnv(Env):


    """
    Has the following members
    - nS: number of states # 状态的数量
    - nA: number of actions # 动作的数量
    - P: transitions (*) # 状态转移的概率
    - isd: initial state distribution (**) # 初始状态的分布


    (*) dictionary of lists, where
      P[s][a] == [(probability, nextstate, reward, done), ...] # P[s][a] 是一个列表，表示在状态 s 下采取动作 a 后，可能的下一个状态，奖励和是否结束的概率
    (**) list or array of length nS # isd 是一个长度为 nS 的列表或数组，表示每个状态作为初始状态的概率
    """


    # 定义初始化方法，接受四个参数：状态的数量，动作的数量，状态转移的概率，初始状态的分布
    def __init__(self, nS, nA, P, isd):
        self.P = P # 将状态转移的概率赋值给 self.P
        self.isd = isd # 将初始状态的分布赋值给 self.isd
        self.lastaction = None  # for rendering # 定义一个属性，用于记录上一次的动作，用于渲染
        self.nS = nS # 将状态的数量赋值给 self.nS
        self.nA = nA # 将动作的数量赋值给 self.nA


        # 定义一个属性，表示动作的空间，是一个离散的空间，取值范围是 [0, nA-1]
        self.action_space = spaces.Discrete(self.nA)
        # 定义一个属性，表示状态的空间，是一个离散的空间，取值范围是 [0, nS-1]
        self.observation_space = spaces.Discrete(self.nS)


        self.seed() # 调用 seed 方法，设置随机数种子
        # 从初始状态的分布中采样一个状态，赋值给 self.s
        self.s = categorical_sample(self.isd, self.np_random)


    # 定义一个方法，用于设置随机数种子，接受一个参数：种子
    def seed(self, seed=None):
        # 调用 seeding 模块的 np_random 函数，根据种子生成一个随机数生成器，赋值给 self.np_random，并返回种子
        self.np_random, seed = seeding.np_random(seed)
        return [seed]


    # 定义一个方法，用于重置环境，返回初始状态
    def reset(self):
        # 从初始状态的分布中采样一个状态，赋值给 self.s
        self.s = categorical_sample(self.isd, self.np_random)
        self.lastaction = None # 将上一次的动作设为 None
        return int(self.s) # 返回初始状态，转换为整数类型


    # 定义一个方法，用于执行一个动作，返回下一个状态，奖励，是否结束和附加信息
    def step(self, a):
        # 根据当前状态和动作，从状态转移的概率中获取可能的转移列表，赋值给 transitions
        transitions = self.P[self.s][a]
        # 从转移列表中，根据转移的概率，采样一个转移的索引，赋值给 i
        i = categorical_sample([t[0] for t in transitions], self.np_random)
        # 根据转移的索引，获取转移的概率，下一个状态，奖励和是否结束，赋值给 p, s, r, d
        p, s, r, d = transitions[i]
        self.s = s # 将下一个状态赋值给 self.s
        self.lastaction = a # 将当前动作赋值给 self.lastaction
        # 返回下一个状态，奖励，是否结束和附加信息，其中附加信息是一个字典，包含转移的概率，下一个状态转换为整数类型
        return (int(s), r, d, {"prob": p})

用于绘制一些问题中的价值函数的图形的函数 plotting.py 。价值函数表示在不同的状态下，采取最优策略能够获得的期望回报。这些代码使用了matplotlib库，numpy库，pandas库和namedtuple来进行数据处理和图形绘制。代码中定义了三个函数，分别是：

plot_cost_to_go_mountain_car：这个函数用于绘制山地车问题的价值函数，山地车问题是一个连续状态空间的强化学习问题，目标是让一辆车在两座山之间来回移动，最终到达右边的山顶。这个函数接受一个环境对象，一个估计器对象和一个网格数作为参数，然后生成一个三维的曲面图，显示在不同的位置和速度下，采取最优动作的成本（负的价值）。
plot_value_function：这个函数用于绘制二十一点游戏的价值函数，二十一点游戏是一个离散状态空间的强化学习问题，目标是让玩家的牌的总和尽可能接近21，但不超过21，同时要比庄家的牌的总和大。这个函数接受一个价值函数字典和一个标题作为参数，然后分别绘制两个三维的曲面图，显示在不同的玩家总和和庄家显示牌下，有可用的Ace和没有可用的Ace的情况下的价值。
plot_episode_stats：这个函数用于绘制每个回合的统计信息，包括回合的长度，回合的奖励，回合的时间步数和回合的编号。这个函数接受一个命名元组，一个平滑窗口和一个是否显示图形的标志作为参数，然后分别绘制三个二维的折线图，显示回合的长度，回合的奖励和回合的时间步数随回合的编号的变化。这个函数返回三个图形对象。

# 导入matplotlib库，用于绘制图形
import matplotlib
# 导入numpy库，用于进行数值计算
import numpy as np
# 导入pandas库，用于进行数据分析
import pandas as pd
# 导入namedtuple，用于创建命名元组
from collections import namedtuple
# 导入pyplot模块，用于绘制二维图形
from matplotlib import pyplot as plt
# 导入Axes3D模块，用于绘制三维图形
from mpl_toolkits.mplot3d import Axes3D


# 创建一个命名元组，用于存储每个回合的长度和奖励
EpisodeStats = namedtuple("Stats",["episode_lengths", "episode_rewards"])


# 定义一个函数，用于绘制山地车问题的价值函数
def plot_cost_to_go_mountain_car(env, estimator, num_tiles=20):
    # 生成一个等差数列，表示状态空间中的位置范围
    x = np.linspace(env.observation_space.low[0], env.observation_space.high[0], num=num_tiles)
    # 生成一个等差数列，表示状态空间中的速度范围
    y = np.linspace(env.observation_space.low[1], env.observation_space.high[1], num=num_tiles)
    # 生成一个网格，表示状态空间中的所有可能组合
    X, Y = np.meshgrid(x, y)
    # 对每个状态，计算估计器预测的最大动作价值，并取负数，表示成本
    Z = np.apply_along_axis(lambda _: -np.max(estimator.predict(_)), 2, np.dstack([X, Y]))


    # 创建一个图形对象，设置大小为10*5
    fig = plt.figure(figsize=(10, 5))
    # 在图形对象上添加一个子图，设置为三维投影
    ax = fig.add_subplot(111, projection='3d')
    # 在子图上绘制一个曲面，表示价值函数
    surf = ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                           cmap=matplotlib.cm.coolwarm, vmin=-1.0, vmax=1.0)
    # 设置子图的x轴标签为位置
    ax.set_xlabel('Position')
    # 设置子图的y轴标签为速度
    ax.set_ylabel('Velocity')
    # 设置子图的z轴标签为价值
    ax.set_zlabel('Value')
    # 设置子图的标题为山地车问题的成本函数
    ax.set_title("Mountain \"Cost To Go\" Function")
    # 在图形对象上添加一个颜色条，表示价值的范围
    fig.colorbar(surf)
    # 显示图形
    plt.show()




# 定义一个函数，用于绘制价值函数的曲面图
def plot_value_function(V, title="Value Function"):
    """
    Plots the value function as a surface plot.
    """
    # 找到价值函数中的最小和最大的玩家总和
    min_x = min(k[0] for k in V.keys())
    max_x = max(k[0] for k in V.keys())
    # 找到价值函数中的最小和最大的庄家显示牌
    min_y = min(k[1] for k in V.keys())
    max_y = max(k[1] for k in V.keys())


    # 生成一个等差数列，表示玩家总和的范围
    x_range = np.arange(min_x, max_x + 1)
    # 生成一个等差数列，表示庄家显示牌的范围
    y_range = np.arange(min_y, max_y + 1)
    # 生成一个网格，表示所有可能的状态组合
    X, Y = np.meshgrid(x_range, y_range)


    # 对每个状态，根据是否有可用的Ace，计算价值函数的值
    Z_noace = np.apply_along_axis(lambda _: V[(_[0], _[1], False)], 2, np.dstack([X, Y]))
    Z_ace = np.apply_along_axis(lambda _: V[(_[0], _[1], True)], 2, np.dstack([X, Y]))


    # 定义一个内部函数，用于绘制一个曲面图
    def plot_surface(X, Y, Z, title):
        # 创建一个图形对象，设置大小为20*10
        fig = plt.figure(figsize=(20, 10))
        # 在图形对象上添加一个子图，设置为三维投影
        ax = fig.add_subplot(111, projection='3d')
        # 在子图上绘制一个曲面，表示价值函数
        surf = ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                               cmap=matplotlib.cm.coolwarm, vmin=-1.0, vmax=1.0)
        # 设置子图的x轴标签为玩家总和
        ax.set_xlabel('Player Sum')
        # 设置子图的y轴标签为庄家显示牌
        ax.set_ylabel('Dealer Showing')
        # 设置子图的z轴标签为价值
        ax.set_zlabel('Value')
        # 设置子图的标题
        ax.set_title(title)
        # 设置子图的视角
        ax.view_init(ax.elev, -120)
        # 在图形对象上添加一个颜色条，表示价值的范围
        fig.colorbar(surf)
        # 显示图形
        plt.show()


    # 调用内部函数，分别绘制没有可用Ace和有可用Ace的情况下的价值函数
    plot_surface(X, Y, Z_noace, "{} (No Usable Ace)".format(title))
    plot_surface(X, Y, Z_ace, "{} (Usable Ace)".format(title))


# 定义一个函数，用于绘制每个回合的统计信息
def plot_episode_stats(stats, smoothing_window=10, noshow=False):
    # 绘制每个回合的长度随时间的变化
    fig1 = plt.figure(figsize=(10,5))
    plt.plot(stats.episode_lengths)
    plt.xlabel("Episode")
    plt.ylabel("Episode Length")
    plt.title("Episode Length over Time")
    # 如果noshow为真，不显示图形，否则显示图形
    if noshow:
        plt.close(fig1)
    else:
        plt.show()#fig1


    # 绘制每个回合的奖励随时间的变化，使用平滑窗口进行平滑处理
    fig2 = plt.figure(figsize=(10,5))
    rewards_smoothed = pd.Series(stats.episode_rewards).rolling(smoothing_window, min_periods=smoothing_window).mean()
    plt.plot(rewards_smoothed)
    plt.xlabel("Episode")
    plt.ylabel("Episode Reward (Smoothed)")
    plt.title("Episode Reward over Time (Smoothed over window size {})".format(smoothing_window))
    # 如果noshow为真，不显示图形，否则显示图形
    if noshow:
        plt.close(fig2)
    else:
        plt.show()#fig2


    # 绘制每个回合的时间步数和回合数的关系
    fig3 = plt.figure(figsize=(10,5))
    plt.plot(np.cumsum(stats.episode_lengths), np.arange(len(stats.episode_lengths)))
    plt.xlabel("Time Steps")
    plt.ylabel("Episode")
    plt.title("Episode per time step")
    # 如果noshow为真，不显示图形，否则显示图形
    if noshow:
        plt.close(fig3)
    else:
        plt.show()#fig3


    # 返回三个图形对象
    return fig1, fig2, fig3

SARSA算法求解有风格子世界问题

有风格子世界环境的类 windy_gridworld，它继承自 discrete.DiscreteEnv 类，用于创建和管理一个强化学习的环境。它的主要功能是：

定义了环境的基本属性，如状态的数量，动作的数量，状态转移的概率，初始状态的分布，风的强度，动作的空间，状态的空间等。
定义了环境的基本方法，如限制坐标的范围，计算转移的概率，重置环境，渲染环境等。
使用了 io 库，gym 库，numpy 库，sys 库和 discrete 模块来进行输入输出，环境管理，数值计算，系统操作和离散环境的管理等操作。

# 导入io模块，这是一个内置的模块，提供了与输入输出流相关的功能
import io
# 导入gym库，这是一个用于强化学习的开源库，提供了多种环境和接口
import gym
# 导入numpy库，这是一个用于科学计算的开源库，提供了多维数组和矩阵运算等功能
import numpy as np
# 导入sys模块，这是一个内置的模块，提供了一些与Python解释器和系统相关的变量和函数
import sys


# 从当前目录下的discrete模块中导入DiscreteEnv类，这是一个用于实现离散动作空间的环境的基类
from . import discrete


# 定义四个常量，表示四个动作的编号
UP = 0
RIGHT = 1
DOWN = 2
LEFT = 3


# 定义一个类，继承自DiscreteEnv类，用于实现有风格子世界问题的强化学习环境
class WindyGridworldEnv(discrete.DiscreteEnv):


    # 定义一个元数据字典，表示该环境支持的渲染模式
    metadata = {'render.modes': ['human', 'ansi']}


    # 定义一个私有方法，用于限制坐标的范围，使其不超过网格的边界
    def _limit_coordinates(self, coord):
        # 将坐标的第一个分量限制在0到网格的行数减一之间
        coord[0] = min(coord[0], self.shape[0] - 1)
        coord[0] = max(coord[0], 0)
        # 将坐标的第二个分量限制在0到网格的列数减一之间
        coord[1] = min(coord[1], self.shape[1] - 1)
        coord[1] = max(coord[1], 0)
        # 返回限制后的坐标
        return coord


    # 定义一个私有方法，用于计算状态转移的概率，根据当前位置，动作的变化量，和风的强度
    def _calculate_transition_prob(self, current, delta, winds):
        # 计算新的位置，等于当前位置加上动作的变化量，再加上风的影响
        new_position = np.array(current) + np.array(delta) + np.array([-1, 0]) * winds[tuple(current)]
        # 限制新的位置的范围，转换为整数类型
        new_position = self._limit_coordinates(new_position).astype(int)
        # 计算新的状态，将新的位置转换为一维的索引
        new_state = np.ravel_multi_index(tuple(new_position), self.shape)
        # 判断是否达到目标位置，即(3, 7)
        is_done = tuple(new_position) == (3, 7)
        # 返回一个列表，包含一个元组，表示状态转移的概率，新的状态，即时奖励，和是否结束的标志
        return [(1.0, new_state, -1.0, is_done)]


    # 定义一个构造方法，用于初始化环境的属性
    def __init__(self):
        # 定义网格的形状，为7行10列
        self.shape = (7, 10)


        # 计算状态空间的大小，为网格的元素个数
        nS = np.prod(self.shape)
        # 定义动作空间的大小，为4个动作
        nA = 4


        # 定义风的强度，为一个与网格形状相同的数组，某些列有不同的风力
        winds = np.zeros(self.shape)
        winds[:,[3,4,5,8]] = 1
        winds[:,[6,7]] = 2


        # 计算状态转移的概率，用一个字典表示，键为状态，值为另一个字典，键为动作，值为一个列表，包含状态转移的元组
        P = {}
        # 对每个状态进行循环
        for s in range(nS):
            # 将状态转换为二维的位置
            position = np.unravel_index(s, self.shape)
            # 初始化状态对应的字典，键为动作，值为一个空列表
            P[s] = { a : [] for a in range(nA) }
            # 对每个动作进行循环，分别计算状态转移的概率，调用之前定义的私有方法
            P[s][UP] = self._calculate_transition_prob(position, [-1, 0], winds)
            P[s][RIGHT] = self._calculate_transition_prob(position, [0, 1], winds)
            P[s][DOWN] = self._calculate_transition_prob(position, [1, 0], winds)
            P[s][LEFT] = self._calculate_transition_prob(position, [0, -1], winds)


        # 定义初始状态分布，为一个与状态空间大小相同的数组，只有(3, 0)位置的概率为1，其他为0
        isd = np.zeros(nS)
        isd[np.ravel_multi_index((3,0), self.shape)] = 1.0


        # 调用父类的构造方法，传入状态空间大小，动作空间大小，状态转移概率，和初始状态分布
        super(WindyGridworldEnv, self).__init__(nS, nA, P, isd)


    # 定义一个方法，用于渲染环境，根据模式和关闭标志，调用另一个私有方法
    def render(self, mode='human', close=False):
        self._render(mode, close)


    # 定义一个私有方法，用于渲染环境，根据模式和关闭标志，输出或显示网格世界的图形界面
    def _render(self, mode='human', close=False):
        # 如果关闭标志为True，表示不需要渲染，直接返回
        if close:
            return


        # 根据模式，选择输出的文件对象，如果是ansi模式，使用io模块中的StringIO对象，如果是human模式，使用系统的标准输出
        outfile = io.StringIO() if mode == 'ansi' else sys.stdout


        # 对每个状态进行循环
        for s in range(self.nS):
            # 将状态转换为二维的位置
            position = np.unravel_index(s, self.shape)
            # print(self.s)
            # 根据位置，选择输出的符号，如果是当前状态，输出 x，如果是目标位置，输出 T，否则输出 o
            if self.s == s:
                output = " x "
            elif position == (3,7):
                output = " T "
            else:
                output = " o "


            # 如果位置在第一列，去掉输出符号的左边空格
            if position[1] == 0:
                output = output.lstrip()
            # 如果位置在最后一列，去掉输出符号的右边空格，并换行
            if position[1] == self.shape[1] - 1:
                output = output.rstrip()
                output += "\n"


            # 将输出符号写入文件对象
            outfile.write(output)
        # 在所有状态循环结束后，再换行
        outfile.write("\n")

测试程序 Cliff Environment Playground.py，用于在有风格子世界环境中进行一些动作，并打印出环境的状态和渲染结果。它的主要功能是：

导入 gym 库，numpy 库，sys 库和 WindyGridworldEnv 类，用于创建和管理环境，进行数值计算，系统操作和有风格子世界的管理等操作。
如果当前路径中没有 “../”，则将其添加到路径中，方便导入其他模块。
创建一个有风格子世界的环境，赋值给 env。
调用 env 的 reset 方法，重置环境，返回初始状态，并打印出来。
调用 env 的 render 方法，渲染环境，显示出当前的位置。
调用 env 的 step 方法，执行一个向右的动作，返回下一个状态，奖励，是否结束和附加信息，并打印出来。
调用 env 的 render 方法，渲染环境，显示出当前的位置。
重复上述两步，执行五次向右的动作和一次向下的动作，打印和渲染每一步的结果

import gym
import numpy as np
import sys


if "../" not in sys.path:
  sys.path.append("../") 


from lib.envs.windy_gridworld import WindyGridworldEnv


# %%
env = WindyGridworldEnv()


print(env.reset())
env.render()


print(env.step(1))
env.render()


print(env.step(1))
env.render()


print(env.step(1))
env.render()


print(env.step(2))
env.render()


print(env.step(1))
env.render()


print(env.step(1))
env.render()

实现SARSA算法 SARSA Solution.py，SARSA算法是一种基于时序差分学习的强化学习算法，可以找到最优的epsilon-贪婪策略。

代码使用了gym库，itertools库，matplotlib库，numpy库，pandas库和sys库来进行环境模拟，数据处理和图形绘制。代码中定义了两个函数，分别是：

make_epsilon_greedy_policy：这个函数用于根据给定的Q函数和epsilon参数，创建一个epsilon-贪婪策略。这个函数接受一个状态到动作价值的字典，一个随机选择动作的概率，和一个环境中的动作数作为参数。这个函数返回一个函数，这个函数接受一个观察作为参数，返回一个长度为动作数的numpy数组，表示每个动作的概率。

sarsa：这个函数用于实现SARSA算法，找到最优的epsilon-贪婪策略。这个函数接受一个OpenAI环境，一个回合数，一个折扣因子，一个学习率，和一个epsilon参数作为参数。这个函数返回一个元组(Q, stats)。Q是最优的动作价值函数，一个状态到动作价值的字典。stats是一个EpisodeStats对象，包含两个numpy数组，分别表示每个回合的长度和奖励。

代码的主要流程是：

1. 创建一个默认的动作价值函数，一个统计信息对象，和一个epsilon-贪婪策略。

2. 对于每个回合，重置环境，选择第一个动作，然后循环执行以下步骤：

a. 执行一个动作，观察下一个状态，奖励，和是否结束。

b. 选择下一个动作，根据当前的策略。

c. 更新统计信息。

d. 使用时序差分更新公式，更新动作价值函数。

e. 如果结束，跳出循环。

f. 更新当前的动作和状态。

3. 返回动作价值函数和统计信息对象。

4. 使用plotting模块，绘制统计信息的图形。

# 导入gym库，这是一个用于强化学习的开源库，提供了多种环境和接口[^1^][1]
import gym
# 导入itertools库，这是一个用于创建迭代器的标准库，提供了多种迭代工具[^2^][2]
import itertools
# 导入matplotlib库，这是一个用于绘图的开源库，提供了多种图形和图表[^3^][3]
import matplotlib
# 导入numpy库，这是一个用于科学计算的开源库，提供了多维数组和矩阵运算等功能[^4^][4]
import numpy as np
# 导入pandas库，这是一个用于数据分析和处理的开源库，提供了DataFrame等数据结构[^5^][5]
import pandas as pd
# 导入sys模块，这是一个内置的模块，提供了一些与Python解释器和系统相关的变量和函数
import sys


# 检查当前的系统路径中是否包含上一级目录，如果不包含，则将其添加到系统路径中
# 这样做的目的是为了能够导入上一级目录中的lib文件夹中的模块
if "../" not in sys.path:
  sys.path.append("../") 


# 从lib文件夹中的envs子文件夹中导入WindyGridworldEnv类，这是一个用于实现有风网格世界问题的强化学习环境
from collections import defaultdict
from lib.envs.windy_gridworld import WindyGridworldEnv
# 从lib文件夹中导入plotting模块，这是一个用于绘制统计数据的模块
from lib import plotting


# 设置matplotlib的样式为ggplot，这是一种美观的绘图风格
matplotlib.style.use('ggplot')


# %%
# 创建一个WindyGridworldEnv的实例对象，命名为env，这是一个7x10的网格世界，有一些单元格有风向和风力，智能体需要从起点走到终点，受到风的影响
env = WindyGridworldEnv()


# %%
# 定义一个函数，用于根据给定的Q函数和epsilon值，创建一个epsilon贪婪策略
def make_epsilon_greedy_policy(Q, epsilon, nA):
    """
    根据给定的Q函数和epsilon值，创建一个epsilon贪婪策略


    参数:
        Q: 一个字典，映射从状态到动作值
            每个值是一个长度为nA的numpy数组（见下文）
        epsilon: 选择一个随机动作的概率，介于0和1之间的浮点数
        nA: 环境中的动作数量


    返回:
        一个函数，接受一个观察值作为参数，返回
        每个动作的概率，以长度为nA的numpy数组的形式


    """
    # 定义一个内部函数，用于根据观察值，返回每个动作的概率
    def policy_fn(observation):
        # 创建一个长度为nA的numpy数组，每个元素的值为epsilon/nA，表示选择一个随机动作的概率
        A = np.ones(nA, dtype=float) * epsilon / nA
        # 根据Q函数，找到当前状态下最优的动作
        best_action = np.argmax(Q[observation])
        # 将最优动作的概率增加1-epsilon，表示选择最优动作的概率
        A[best_action] += (1.0 - epsilon)
        # 返回动作概率数组
        return A
    # 返回内部函数
    return policy_fn


# %%
# 定义一个函数，用于实现SARSA算法，即基于策略的时序差分控制，寻找最优的epsilon贪婪策略
def sarsa(env, num_episodes, discount_factor=1.0, alpha=0.5, epsilon=0.1):
    """
    SARSA算法: 基于策略的时序差分控制，寻找最优的epsilon贪婪策略


    参数:
        env: OpenAI环境
        num_episodes: 运行的回合数
        discount_factor: Gamma折扣因子
        alpha: 时序差分学习率
        epsilon: 选择一个随机动作的概率，介于0和1之间的浮点数


    返回:
        一个元组 (Q, stats)
        Q是最优的动作值函数，一个字典，映射从状态到动作值
        stats是一个EpisodeStats对象，包含两个numpy数组，分别记录每个回合的长度和奖励
    """


    # 最终的动作值函数
    # 一个嵌套的字典，映射从状态到（动作到动作值）
    # 使用defaultdict，当访问不存在的键时，返回一个长度为nA的零数组
    Q = defaultdict(lambda: np.zeros(env.action_space.n))


    # 跟踪有用的统计数据
    # 使用plotting模块中的EpisodeStats类，创建一个对象，包含两个长度为  num_episodes 的零数组，分别记录每个回合的长度和奖励
    stats = plotting.EpisodeStats(
        episode_lengths=np.zeros(num_episodes),
        episode_rewards=np.zeros(num_episodes))


    # 我们正在遵循的策略
    # 使用前面定义的函数，根据Q函数和epsilon值，创建一个epsilon贪婪策略
    policy = make_epsilon_greedy_policy(Q, epsilon, env.action_space.n)


    # 对于每个回合
    for i_episode in range(num_episodes):
        # 打印出当前的回合数，方便调试
        if (i_episode + 1) % 100 == 0:
            print("\rEpisode {}/{}.".format(i_episode + 1, num_episodes), end="")
            sys.stdout.flush()


        # 重置环境，选择第一个动作
        state = env.reset()
        # 根据策略，得到当前状态下每个动作的概率
        action_probs = policy(state)
        # 根据动作概率，随机选择一个动作
        action = np.random.choice(np.arange(len(action_probs)), p=action_probs)


        # 在环境中进行一步
        # 使用itertools库中的count函数，创建一个无限的计数器，表示每个回合的时间步数
        for t in itertools.count():
            # 执行一个动作，观察下一个状态，奖励，是否结束，和其他信息
            next_state, reward, done, _ = env.step(action)


            # 根据当前的策略，选择下一个动作，这是一个概率性的选择，根据每个动作的概率分布
            next_action_probs = policy(next_state)
            next_action = np.random.choice(np.arange(len(next_action_probs)), p=next_action_probs)


            # 更新统计信息，累加每个回合的奖励，记录每个回合的长度
            stats.episode_rewards[i_episode] += reward
            stats.episode_lengths[i_episode] = t


            # 使用时序差分更新公式，更新动作价值函数
            # 计算目标值，即当前的奖励加上折扣后的下一个状态和动作的价值
            td_target = reward + discount_factor * Q[next_state][next_action]
            # 计算误差，即目标值减去当前的状态和动作的价值
            td_delta = td_target - Q[state][action]
            # 用学习率乘以误差，更新当前的状态和动作的价值
            Q[state][action] += alpha * td_delta


            # 如果回合结束，跳出循环
            if done:
                break


            # 更新当前的动作和状态，为下一个时间步做准备
            action = next_action
            state = next_state




    # 返回动作价值函数和统计数据
    return Q, stats


# %%
# 调用sarsa函数，传入环境和回合数等参数，得到动作价值函数和统计数据
Q, stats = sarsa(env, 200)


# %%
# 调用plotting模块中的plot_episode_stats函数，传入统计数据，绘制回合长度和回合奖励的图形
plotting.plot_episode_stats(stats)
# print("\nQ:\r{}".format(Q)) #输出最终价值函数
# defaultdict(. at 0x000001CA7D86FF70>, {30: array([-16.62121833, -16.68188683, -16.73355158, -17.17868707]), 20: array([-15.85469654, -15.82517745, -16.65515113, -15.62910245]), 10: array([-15.38586765, -15.58275272, -15.2877975 , -15.24034802]), 0: array([-15.09297672, -15.06110493, -15.13709802, -14.7251808 ]), 1: array([-14.56234244, -14.54038227, -14.91194528, -14.92618857]), 2: array([-14.17266391, -13.80525148, -13.93608606, -13.78078067]), 3: array([-14.28053776, -13.74421705, -13.56175795, -14.14192259]), 4: array([-13.27142219, -12.79400183, -13.54938834, -13.71948143]), 5: array([-12.48366893, -11.3930307 , -12.77222323, -12.9336916 ]), 6: array([-11.91175853,  -9.91457551, -11.78255518, -11.69363854]), 7: array([-10.77910057,  -9.81671771, -10.98045998, -10.65801588]), 8: array([-10.74969529,  -8.0102353 ,  -9.77162591, -11.43791039]), 9: array([ -8.33103372,  -8.39513518,  -6.32893384, -10.33290655]), 19: array([-8.84390206, -8.1119523 , -6.72538289, -9.03481089]), 12: array([-14.20294124, -13.97901573, -13.96065147, -15.22720425]), 11: array([-15.13194653, -14.98909044, -15.48678909, -15.04447429]), 13: array([-13.37943249, -13.53181049, -13.7098475 , -13.81976352]), 29: array([-8.55710389, -6.87412944, -4.85772855, -7.17036152]), 18: array([-8.94868871, -8.0233618 , -9.06798147, -9.26537925]), 22: array([-14.52083337, -14.19290266, -14.38417474, -14.27854828]), 21: array([-15.4374521 , -15.00991466, -15.5801335 , -15.60899897]), 23: array([-13.95910955, -13.42154284, -13.83539163, -14.19399668]), 39: array([-6.4785114 , -5.94494094, -3.99613988, -6.79803347]), 28: array([-7.66699712, -6.61983091, -7.60264565, -8.3233084 ]), 32: array([-14.70999481, -14.81900147, -14.63750975, -16.3293473 ]), 31: array([-15.94781378, -16.20896192, -16.07386806, -15.91479389]), 33: array([-13.86220924, -13.99533353, -14.58005824, -14.60042878]), 40: array([-16.37138175, -15.93543669, -16.00626584, -16.10155303]), 41: array([-15.11021159, -15.0313713 , -15.12066262, -16.1427075 ]), 42: array([-14.39118224, -14.04513618, -14.11888151, -15.06676474]), 43: array([-13.47905898, -13.3280808 , -13.36766233, -14.36908711]), 14: array([-13.24084653, -12.82979917, -12.7967486 , -12.89074042]), 51: array([-15.16797579, -14.42686921, -14.48158134, -14.3608748 ]), 50: array([-16.05803884, -14.96313727, -14.8700738 , -15.28846151]), 52: array([-13.58167077, -13.26323861, -13.58650088, -14.25622422]), 53: array([-12.36202997, -12.46939028, -12.89155887, -13.90026794]), 24: array([-12.75612708, -12.31330449, -12.97263319, -13.78728591]), 61: array([-14.51254789, -13.84352851, -14.20420505, -14.03010117]), 60: array([-14.67217839, -14.48765693, -14.49793836, -14.88186542]), 62: array([-13.10041286, -13.10038901, -13.11464442, -13.2568325 ]), 34: array([-12.82238768, -12.67668025, -13.06624469, -12.75352672]), 49: array([-5.44358852, -3.80098726, -3.26364328, -4.10764147]), 38: array([-7.86199643, -6.35308864, -6.60455766, -6.3621277 ]), 17: array([ -9.21518149,  -9.06675019,  -9.02526121, -10.003373  ]), 63: array([-12.62337832, -12.26700563, -12.85346847, -12.74301769]), 15: array([-11.70362604, -11.39586923, -12.27834132, -12.50392354]), 59: array([-2.81008911, -2.54296875, -2.81005859, -2.52370968]), 69: array([-1.875     , -2.52734375, -2.3359375 , -1.87109375]), 48: array([-6.67165589, -5.06948669, -1.75      , -1.        ]), 27: array([-7.71386745, -6.34017058, -7.76830481, -6.69818919]), 58: array([-3.79243281, -2.51201346, -2.29996305, -1.76249076]), 37: array([0., 0., 0., 0.]), 44: array([-11.66811483, -11.73730811, -12.26177971, -11.80549878]), 54: array([-12.15950782, -11.33421547, -12.16753238, -12.14326109]), 25: array([-12.10995948, -10.72434757, -11.13916866, -11.16080802]), 16: array([-10.27994511,  -9.72139598, -10.71965764, -11.12713914]), 35: array([-11.3114562 , -10.77935897, -11.14367845, -10.83009369]), 68: array([-1.46875   , -2.16746892, -1.5       , -0.9375    ]), 45: array([-11.21385201, -10.38149598, -11.15339582, -11.649213  ]), 47: array([-2.82864534, -4.36609306, -0.9375    , -5.39884604]), 36: array([ -9.49267328,  -9.54858587, -10.25678092, -10.16425445]), 26: array([-10.2265589 ,  -9.85410817,  -9.97563059, -10.89997015]), 57: array([-2.66771439, -2.42248535, -0.5       , -5.24217275])})

输出结果：

每个回合的长度随时间的变化

说明：共200回合，随着价值函数的更新，越往后的回合执行越少的动作就能抵达终点

每个回合的奖励随时间的变化，使用平滑窗口进行平滑处理

说明：随着价值函数的更新越往后的回合得到的回报越高

每个回合的时间步数累加和回合数的关系

说明：每个回合的时间步数表示在一个回合中，执行了多少次动作。回合数表示完成了多少个回合。一个回合的结束条件是到达目标状态或者超过最大的时间步数。这个图反映了学习的效果和效率，如果回合数随着时间步数的增加而快速增加，说明学习的效果好，能够更快地找到最优的策略和动作。如果回合数随着时间步数的增加而缓慢增加，说明学习的效率低，需要更多的时间和尝试才能找到最优的策略和动作。

Q-Learning 算法求解悬崖行走问题

悬崖行走环境的类 cliff_walking.py，它继承自 discrete.DiscreteEnv 类，用于创建和管理一个强化学习的环境。它的主要功能是：

定义了环境的基本属性，如状态的数量，动作的数量，状态转移的概率，初始状态的分布，悬崖的位置，动作的空间，状态的空间等。
定义了环境的基本方法，如限制坐标的范围，计算转移的概率，重置环境，执行一个动作，返回下一个状态，奖励，是否结束和附加信息，渲染环境等。
使用了 io 库，numpy 库，sys 库和 discrete 模块来进行输入输出，数值计算，系统操作和离散环境的管理等操作。

# 导入io模块，这是一个内置的模块，提供了与输入输出流相关的功能
import io
# 导入numpy库，这是一个用于科学计算的开源库，提供了多维数组和矩阵运算等功能
import numpy as np
# 导入sys模块，这是一个内置的模块，提供了一些与Python解释器和系统相关的变量和函数
import sys


# 从当前目录下的discrete模块中导入DiscreteEnv类，这是一个用于实现离散动作空间的环境的基类
from . import discrete


# 定义四个常量，表示四个动作的编号
UP = 0
RIGHT = 1
DOWN = 2
LEFT = 3


# 定义一个类，继承自DiscreteEnv类，用于实现悬崖行走问题的强化学习环境
class CliffWalkingEnv(discrete.DiscreteEnv):
    # 定义一个元数据字典，表示该环境支持的渲染模式
    metadata = {'render.modes': ['human', 'ansi']}


    # 定义一个私有方法，用于限制坐标的范围，使其不超过网格的边界
    def _limit_coordinates(self, coord):
        # 将坐标的第一个分量限制在0到网格的行数减一之间
        coord[0] = min(coord[0], self.shape[0] - 1)
        coord[0] = max(coord[0], 0)
        # 将坐标的第二个分量限制在0到网格的列数减一之间
        coord[1] = min(coord[1], self.shape[1] - 1)
        coord[1] = max(coord[1], 0)
        # 返回限制后的坐标
        return coord


    # 定义一个私有方法，用于计算状态转移的概率，根据当前位置和动作的变化量
    def _calculate_transition_prob(self, current, delta):
        # 计算新的位置，等于当前位置加上动作的变化量
        new_position = np.array(current) + np.array(delta)
        # 限制新的位置的范围，转换为整数类型
        new_position = self._limit_coordinates(new_position).astype(int)
        # 计算新的状态，将新的位置转换为一维的索引
        new_state = np.ravel_multi_index(tuple(new_position), self.shape)#给定一个多维数组的形状和一个多维的坐标，返回一个整数，表示该坐标在多维数组中对应的一维索引。例如，如果 self.shape 是 (4, 12)，表示环境是一个 4 行 12 列的网格，那么 new_position 是 (0, 0) 对应的 new_state 是 0，表示网格的左上角，new_position 是 (3, 11) 对应的 new_state 是 47，表示网格的右下角
        # 判断是否落入悬崖，如果是，奖励为-100，否则为-1
        reward = -100.0 if self._cliff[tuple(new_position)] else -1.0
        # 判断是否达到目标位置或落入悬崖，如果是，回合结束
        is_done = self._cliff[tuple(new_position)] or (tuple(new_position) == (3,11))
        # 返回一个列表，包含一个元组，表示状态转移的概率，新的状态，即时奖励，和是否结束的标志
        return [(1.0, new_state, reward, is_done)]


    # 定义一个构造方法，用于初始化环境的属性
    def __init__(self):
        # 定义网格的形状，为4行12列
        self.shape = (4, 12)


        # 计算状态空间的大小，为网格的元素个数
        nS = np.prod(self.shape)
        # 定义动作空间的大小，为4个动作
        nA = 4


        # 定义悬崖的位置，为一个与网格形状相同的布尔数组，第四行的第二列到倒数第二列为True，表示悬崖
        self._cliff = np.zeros(self.shape, dtype=bool)
        self._cliff[3, 1:-1] = True #是悬崖


        # 计算状态转移的概率，用一个字典表示，键为状态，值为另一个字典，键为动作，值为一个列表，包含状态转移的元组
        P = {}
        # 对每个状态进行循环
        for s in range(nS):
            # 将状态转换为二维的位置
            position = np.unravel_index(s, self.shape) #给定一个多维数组的形状和一个一维的索引，返回一个元组，表示该索引在多维数组中对应的坐标。例如，如果 self.shape 是 (4, 12)，表示环境是一个 4 行 12 列的网格，那么 s = 0 对应的 position 是 (0, 0)，表示网格的左上角，s = 47 对应的 position 是 (3, 11)，表示网格的右下角。这个函数可以方便地将状态的表示从一维转换为二维，便于进行坐标的运算和渲染。
            # 初始化状态对应的字典，键为动作，值为一个空列表
            P[s] = { a : [] for a in range(nA) }
            # 对每个动作进行循环，分别计算状态转移的概率，调用之前定义的私有方法
            P[s][UP] = self._calculate_transition_prob(position, [-1, 0]) #行-1
            P[s][RIGHT] = self._calculate_transition_prob(position, [0, 1])# 列+1
            P[s][DOWN] = self._calculate_transition_prob(position, [1, 0])#行+1
            P[s][LEFT] = self._calculate_transition_prob(position, [0, -1])#列-1


        # 定义初始状态分布，为一个与状态空间大小相同的数组，只有(3, 0)位置的概率为1，其他为0
        isd = np.zeros(nS)
        isd[np.ravel_multi_index((3,0), self.shape)] = 1.0


        # 调用父类的构造方法，传入状态空间大小，动作空间大小，状态转移概率，和初始状态分布
        super(CliffWalkingEnv, self).__init__(nS, nA, P, isd)


    # 定义一个方法，用于渲染环境，根据模式和关闭标志，调用另一个私有方法
    def render(self, mode='human', close=False):
        self._render(mode, close)


    # 定义一个私有方法，用于渲染环境，根据模式和关闭标志，输出或显示网格世界的图形界面
    def _render(self, mode='human', close=False):
        # 如果关闭标志为True，表示不需要渲染，直接返回
        if close:
            return


        # 根据模式，选择输出的文件对象，如果是ansi模式，使用io模块中的StringIO对象，如果是human模式，使用系统的标准输出
        outfile = io.StringIO() if mode == 'ansi' else sys.stdout


        # 对每个状态进行循环
        for s in range(self.nS):
            # 将状态转换为二维的位置
            position = np.unravel_index(s, self.shape)
            # print(self.s)
            # 根据位置，选择输出的符号，如果是当前状态，输出 x，如果是目标位置，输出 T，如果是悬崖位置，输出 C，否则输出 o
            if self.s == s:
                output = " x "
            elif position == (3,11):
                output = " T "
            elif self._cliff[position]:
                output = " C "
            else:
                output = " o "


            # 如果位置在第一列，去掉输出符号的左边空格
            if position[1] == 0:
                output = output.lstrip() 
            # 如果位置在最后一列，去掉输出符号的右边空格，并换行
            if position[1] == self.shape[1] - 1:
                output = output.rstrip() 
                output += "\n"


            # 将输出符号写入文件对象
            outfile.write(output)
        # 在所有状态循环结束后，再换行
        outfile.write("\n")

测试程序 Cliff Environment Playground.py ，用于在悬崖行走环境中进行一些动作，并打印出环境的状态和渲染结果。它的主要功能是：

导入 gym 库，numpy 库，sys 库和 CliffWalkingEnv 类，用于创建和管理环境，进行数值计算，系统操作和悬崖行走的管理等操作。
如果当前路径中没有 “../”，则将其添加到路径中，方便导入其他模块。
创建一个悬崖行走的环境，赋值给 env。
调用 env 的 reset 方法，重置环境，返回初始状态，并打印出来。
调用 env 的 render 方法，渲染环境，显示出当前的位置。
调用 env 的 step 方法，执行一个向上的动作，返回下一个状态，奖励，是否结束和附加信息，并打印出来。
调用 env 的 render 方法，渲染环境，显示出当前的位置。
重复上述两步，执行两次向右的动作和一次向下的动作，打印和渲染每一步的结果。

import gym
import numpy as np
import sys


if "../" not in sys.path:
  sys.path.append("../") 


from lib.envs.cliff_walking import CliffWalkingEnv


env = CliffWalkingEnv()


print(env.reset())
env.render()


print(env.step(0))
env.render()


print(env.step(1))
env.render()


print(env.step(1))
env.render()


print(env.step(2))
env.render()

Q-learning 算法求解悬崖行走问题的代码Q-Learning Solution.py

该代码使用了一个名为悬崖行走的OpenAI环境，该环境是一个4x12的网格世界，其中代理人从左下角的起点开始，目标是到达右下角的终点，而不掉入悬崖中。
该代码定义了一个函数make_epsilon_greedy_policy，该函数根据给定的Q函数和epsilon值，创建一个epsilon-贪婪策略。该函数返回一个函数，该函数接受一个观察值作为参数，并返回每个动作的概率，形式为一个长度为nA的numpy数组。
该代码定义了一个函数q_learning，该函数实现了Q-Learning算法，即离策略的TD控制算法。该算法在遵循一个epsilon-贪婪策略的同时，寻找最优的贪婪策略。该函数接受以下参数：
- env: OpenAI环境。
- num_episodes: 运行的回合数。
- discount_factor: Gamma折扣因子。
- alpha: TD学习率。
- epsilon: 选择随机动作的概率，介于0和1之间的浮点数。
该函数返回一个元组(Q, stats)。Q是最优的动作值函数，是一个映射状态到动作值的字典。stats是一个EpisodeStats对象，包含两个numpy数组，分别记录了每个回合的长度和奖励。
该函数的主要步骤如下：
- 重置环境并选择第一个动作。
- 对于每个时间步：
- 执行一个动作，并观察下一个状态，奖励，是否结束，以及其他信息。
- 更新统计信息。
- TD更新：根据下一个状态的最优动作，计算TD目标。计算TD误差。更新Q中当前状态和动作的值。
- 如果结束，跳出循环。
- 更新当前状态为下一个状态。
- 初始化一个空的Q字典，用于存储每个状态的动作值。
- 初始化一个stats对象，用于记录有用的统计信息。
- 根据Q和epsilon，创建一个epsilon-贪婪策略。
- 对于每个回合：
该代码使用了q_learning函数来求解悬崖行走问题，设置了500个回合，其他参数使用默认值。
该代码使用了plotting.plot_episode_stats函数来绘制每个回合的长度和奖励的图表，以及每个状态的动作值的热力图。

# 导入gym库，用于提供强化学习的环境
import gym
# 导入itertools库，用于提供一些迭代器的工具函数
import itertools
# 导入matplotlib库，用于提供图形绘制的功能
import matplotlib
# 导入numpy库，用于提供数组和数学运算的功能
import numpy as np
# 导入pandas库，用于提供数据分析和处理的功能
import pandas as pd
# 导入sys库，用于提供系统相关的功能
import sys




# 判断当前的路径中是否包含"../"，如果不包含，就添加到路径中，用于导入lib模块
if "../" not in sys.path:
  sys.path.append("../") 


# 导入defaultdict类，用于创建一个默认字典，即一个可以使用任意不存在的键访问的字典，如果访问一个不存在的键，它会自动创建一个默认值
from collections import defaultdict
# 导入CliffWalkingEnv类，用于创建一个悬崖行走的环境，这是一个网格世界，目标是从起点走到终点，中间有一些悬崖，如果掉入悬崖，就会返回起点并受到惩罚
from lib.envs.cliff_walking import CliffWalkingEnv
# 导入plotting模块，用于提供一些图形绘制的函数，例如plot_episode_stats函数
from lib import plotting


# 设置图形的风格为ggplot，一种流行的图形风格
matplotlib.style.use('ggplot')


# %%
# 创建一个悬崖行走的环境对象，用于与智能体进行交互
env = CliffWalkingEnv()


# %%
# 定义一个函数，叫做make_epsilon_greedy_policy，用于根据给定的Q函数和epsilon参数，创建一个epsilon-贪婪策略
def make_epsilon_greedy_policy(Q, epsilon, nA):
    """
    Creates an epsilon-greedy policy based on a given Q-function and epsilon.
    
    Args:
        Q: A dictionary that maps from state -> action-values.
            Each value is a numpy array of length nA (see below)
        epsilon: The probability to select a random action. Float between 0 and 1.
        nA: Number of actions in the environment.
    
    Returns:
        A function that takes the observation as an argument and returns
        the probabilities for each action in the form of a numpy array of length nA.
    
    """
    # 定义一个函数，叫做policy_fn，用于根据一个观察，返回一个动作的概率分布
    def policy_fn(observation):
        # 创建一个全为epsilon/nA的数组，表示每个动作的初始概率，其中epsilon是随机选择动作的概率，nA是动作数
        A = np.ones(nA, dtype=float) * epsilon / nA
        # 找到Q函数中对应于当前状态的最大动作价值的动作，即最优动作
        best_action = np.argmax(Q[observation])
        # 给最优动作的概率增加1-epsilon，表示最优动作被选择的概率更高
        A[best_action] += (1.0 - epsilon)
        # 返回这个数组，表示当前状态下的策略
        return A
    # 返回这个函数，作为epsilon-贪婪策略
    return policy_fn


# %%
# 定义一个函数，叫做q_learning，用于实现Q学习算法，找到最优的贪婪策略，同时遵循一个epsilon-贪婪策略
def q_learning(env, num_episodes, discount_factor=1.0, alpha=0.5, epsilon=0.1):
    """
    Q-Learning algorithm: Off-policy TD control. Finds the optimal greedy policy
    while following an epsilon-greedy policy
    
    Args:
        env: OpenAI environment.
        num_episodes: Number of episodes to run for.
        discount_factor: Gamma discount factor.
        alpha: TD learning rate.
        epsilon: Chance to sample a random action. Float between 0 and 1.
    
    Returns:
        A tuple (Q, episode_lengths).
        Q is the optimal action-value function, a dictionary mapping state -> action values.
        stats is an EpisodeStats object with two numpy arrays for episode_lengths and episode_rewards.
    """
    
    # 创建一个默认字典，用于存储最终的动作价值函数，即在不同的状态下，每个动作能够获得的期望回报
    # 这个字典的键是状态，它的值是一个长度为动作数的零数组，表示在该状态下，每个动作的价值都是零
    # 如果访问一个不存在的状态，它会自动创建一个对应的零数组作为值
    Q = defaultdict(lambda: np.zeros(env.action_space.n))


    # 创建一个EpisodeStats对象，用于记录每个回合的长度和奖励的numpy数组
    stats = plotting.EpisodeStats(
        episode_lengths=np.zeros(num_episodes),
        episode_rewards=np.zeros(num_episodes))    
    
    # 创建一个epsilon-贪婪策略，用于在每个状态下，以一定的概率epsilon随机选择一个动作，否则选择当前最优的动作，即具有最大的动作价值的动作
    policy = make_epsilon_greedy_policy(Q, epsilon, env.action_space.n)
    
    # 对于每个回合，重置环境，选择第一个动作，然后循环执行以下步骤：
    for i_episode in range(num_episodes):
        # 打印出当前的回合数，用于调试
        if (i_episode + 1) % 100 == 0:
            print("\rEpisode {}/{}.".format(i_episode + 1, num_episodes), end="")
            sys.stdout.flush()
        
        # 重置环境，返回初始状态
        state = env.reset()
        
        # 在环境中执行一个步骤
        # total_reward = 0.0
        for t in itertools.count():
            
            # 选择一个动作，根据当前的策略，这是一个概率性的选择，根据每个动作的概率分布
            action_probs = policy(state)
            action = np.random.choice(np.arange(len(action_probs)), p=action_probs)
            # 执行一个动作，观察下一个状态，奖励，是否结束，和其他信息
            next_state, reward, done, _ = env.step(action)


            # 更新统计信息，累加每个回合的奖励，记录每个回合的长度
            stats.episode_rewards[i_episode] += reward
            stats.episode_lengths[i_episode] = t
            
            # 使用时序差分更新公式，更新动作价值函数
            # 找到下一个状态中，具有最大动作价值的动作，即最优动作
            best_next_action = np.argmax(Q[next_state])    
            # 计算目标值，即当前的奖励加上折扣后的下一个状态和最优动作的价值
            td_target = reward + discount_factor * Q[next_state][best_next_action]
            # 计算误差，即目标值减去当前的状态和动作的价值
            td_delta = td_target - Q[state][action]
            # 用学习率乘以误差，更新当前的状态和动作的价值
            Q[state][action] += alpha * td_delta
                
            # 如果回合结束，跳出循环
            if done:
                break
                
            # 更新当前的状态，为下一个步骤做准备
            state = next_state
    
    # 返回最终的动作价值函数和统计信息
    return Q, stats


# 调用q_learning函数，传入环境对象，回合数，折扣因子，学习率，和epsilon参数，返回最终的动作价值函数和统计信息
Q, stats = q_learning(env, 500)


# %%
# 调用plotting模块中的plot_episode_stats函数，传入统计信息，绘制每个回合的长度，每个回合的奖励，和每个回合的时间步数与回合数的关系的图形
plotting.plot_episode_stats(stats)

输出结果：

每个回合的长度随时间的变化

每个回合的奖励随时间的变化，使用平滑窗口进行平滑处理

每个回合的时间步数和回合数的关系

最终价值函数

最终价值函数Q：在学习过程中，通过不断地更新和优化，最终收敛到一个稳定的价值函数，即最接近真实的价值函数的价值函数。训练最终的价值函数有以下的用途：

训练最终的价值函数可以反映出最优的策略，即在每个状态下，选择哪个动作能够获得最大的价值。我们可以根据训练最终的价值函数，制定出最优的决策规则，从而在环境中表现出最佳的行为。
训练最终的价值函数可以评估出不同的状态的重要性，即哪些状态能够带来更高的回报，哪些状态应该避免。我们可以根据训练最终的价值函数，分析出环境中的特征和规律，从而提高我们对环境的理解和掌握。
训练最终的价值函数可以作为一种性能指标，即我们可以通过比较训练最终的价值函数和真实的价值函数，或者不同的训练方法和参数下的价值函数，来评估我们的学习效果和效率，从而优化我们的学习过程和方法。

The End

你可能感兴趣的:(机器学习,学习,人工智能)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大学播音主持都学什么内容？播音主持专业学什么？配音新手圈
有些喜欢播音主持并且犹豫要不要报考这个大学专业的小伙伴们就会想要了解大学播音主持都学什么内容吧，毕竟如果不够了解就直接选择这个专业真的等选择完进去学习以后才知道这个专业并不是自己想要学习的东西那就来不及了。下面是小编为大家整理出来的一些播音主持专业学习的内容，请往下看吧。大学播音主持专业主要学习的课程有：播音发声、播音创作基础、广播播音主持、电视播音主持、文艺作品演播学概论、新闻学概论、新闻采编、
新网师的精神肤色（幕布笔记）悦读书香
王子老师的《极简100小妙招》收到已经几天了，之前大概的浏览了全书，今天起给自己定了一个计划，必须每天学习极简小妙招里面的一个妙招，并加以运用。一、今天要打卡什么内容因有完成每天学习极简小妙招的计划，所以今天晚饭吃的比较简单，草草吃完以后带着小宝到广场溜达一圈，急忙赶回来学习极简小妙招。再重看的时候不知道自己要学点什么，打卡哪一招，感觉哪个都简单，就看这一环节像王子老师说的“一看就会”，但做这一环
学习JavaEE的日子 Day32 线程池 A 北枝学习JavaEE 学习 java-ee java 线程池
Day32线程池1.引入一个线程完成一项任务所需时间为：创建线程时间-Time1线程中执行任务的时间-Time2销毁线程时间-Time32.为什么需要线程池(重要)线程池技术正是关注如何缩短或调整Time1和Time3的时间，从而提高程序的性能。项目中可以把Time1，T3分别安排在项目的启动和结束的时间段或者一些空闲的时间段线程池不仅调整Time1，Time3产生的时间段，而且它还显著减少了创建
没有如释重负君远近
虽然只有短短的一个多月的努力复习时间，但今天的整个考试经过，还是发现了效果的，题目做的比较自如，没有慌里慌张，而且提前五分钟完成。至于考试成绩，没有实足的把握，60分都不敢保证。但绝对相信自己，比去年肯定要好！今天早早的赶到考场，见到了刘老师，谈起来学习情况，坦率的说，真的是自己不够重视。总以为会很难，没有信心。其实不是的，只要认真对待，树立足够的信心，绝对可以通过考试的。还向老师询问了，后续再报
C++学习笔记（lambda函数） __TAT__ C&C++c++学习笔记
C++learningnote1、lambda函数的语法2、lambda函数的几种用法1、lambda函数的语法lambda函数的一般语法如下：[capture_clause](parameters)->return_type{function_body}capture_clause：需要捕获的变量，但要求该变量必须在这个作用域中。通常的捕获方式有以下几种：[]：不捕获任何变量[&]：按引用捕获变
心赏（2018.10.8）六一节_3928
1.上班第一天，同事彤休完产假，回来上班，给我带了酸奶和水果。她生小孩时，我给她发了一个小红包贺喜，哪知她就记在心里了。心赏这个有心的90后。2.女儿放学回来，说自己当了小组长。一边说不想当，一边得意的样子。心赏老师给了孩子这个锻炼的机会。3.老妈今天做了"蚂蚁上树"的菜，得到女儿的高度肯定。心赏老妈还在不断学习。
2022-2-13晨间日记越亮也打烊
今天是什么日子起床：7:00就寝：12:08天气：晴心情：糟糕纪念日：无任务清单昨日完成的任务，最重要的三件事：寒假作业，网课，画画改进：作业时间剪短习惯养成：网课不逃～周目标·完成进度数学卷子100％学习·信息·阅读《傅雷家书》《钢铁是怎样炼成的》健康·饮食·锻炼我终于不喝饮料啦，喝茶～人际·家人·朋友邝姐姐带我吃火锅工作·思考啥时候开学，我还有几天赶完作业最美好的三件事1.卷子写完了2.我有冰
中原焦点团队38期王芳芳坚持分享第236天，20230630总约练134次，来访113次，咨8次，观察员13次芳芳王
学习焦点的初心是想拯救孩子，孩子由于沉迷游戏，成绩下滑，在学习的过程中发现是自己的教育方式出了状况。经过半年的学习，一些焦点的基本技巧，如接纳、欣赏、倾听、同理心、尊重等都有了一定的了解。但在实际应用时仍然存在很多问题，感觉自己仍然没有放下对孩子成绩的期望，仍然把握不住对孩子管理的度。我该如何去陪伴好孩子？多用心去听课，并加强反思，多约练。去思考如何让自己快乐起来？
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
#D174-读书会作业-《财务自由之路》3 白洲笔记
最近沉迷于写作营，一直就没时间去弄读书会的作业，书的第二遍也就看了个开头，趁着日更的时间，赶紧把作业做了，这次是15到21课。【1.印象最深刻的部分】(本周所读内容中印象最深刻的部分)*活在未来，最正确的方法是什么？用正确的方法做正确的事情，判断什么是正确的？逻辑。学会思考。"作对事情"永远比“把事情作对“重要的多。”长远思考，耐心验证，小心总结提炼“证明自己正确并不是学习的任务和目标，时刻成长，
账务处理又出错？资深会计来教你，学会效率翻倍！共同学习小橘子要努力吖
作为一名会计，在实际工作中会遇到各种麻烦的账务处理问题。那么，最常用的会计处理方法都有哪些呢？今天小编为大家带来了从业二十六年的资深老会计分享的十四中会计常用的账务处理问题的解决方案，快来看看吧！一、促销品的账务处理在促销时公司经常会把一些商品按进价赠送给消费者使用二、款已付清但发票未到的账务处理三、购买材料发生不合理损耗的账务处理问题公司在购买材料时，常常会发生一些不合理的损耗，那么这种问题该怎
【真诚子】通晓鬼谷第七篇读书日记。真诚子l通晓鬼谷
今天把个人品牌，从193读到208页，书的内容质量出奇的高，尤其是这一段。对标学习法，找一个比自己强，或者你期望成为的人进行模仿性学习，对标学习，不是到处，去找人对标兵学习很多人的优点，或是学习自己认为好的方面，而是找准一个对标高手，然后全方位的学习这个人。我在做品牌咨询时就对标，学习了一个在国内很有名的行业顶尖大咖。我先找到他公司的方案，进行完全模仿，连PPT的排版都一样，而且我只参照他一个人的
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
2018-11-18成长小组学习笔记实验中学45
因为嗓子“罢工”，我面对众人只能借“微笑”代言。在开始授课前，绣霞老师先反馈上次作业的情况，提到“接纳”需是真正发自内心的完全接纳，而不是口头上的接纳，内心却是排斥的。提到一个“问题”孩子恰恰对家爱的更加“深沉”，夫妻间的问题不能影响到孩子，对孩子更好的爱不是你为他做的更多，而是给他自由、健康成长的空间。图片发自App一、孩子：家庭的一面镜子夫妻成了彼此的“投射”，婚姻便“吵的不可开交”，婚姻便成
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
2019-07-16 振华老凤祥店长崔宁宁
大爱的李老师，智慧的教授，亲爱的跃友们：大家好！我是莱州鑫和金店李总的人～崔宁宁今天是我的日精进行动第56天，我分享一下今天的改变，我们相互勉励，每天进步一点点，离成功便不远。1、比学习：人这一生最主要的就是信念，坚定不移的信念是成功路上的重要基石！2、比改变：我是一切的根源，我变了世界就变了！改变自己的心态！3、比付出：承担才能成长，付出才会杰出！4、比谦卑：学习每位优秀店长身上的优点！5、比感
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
2018-12-02 子分小
姓名：张颖公司：菲尔德国际英语【反省总结第146天，始于20180709今天是20181202】【知～学习】六项精进大纲背诵3遍每天十个单词坚持第181天每天学习一篇英文文章第94天英语流利说课程第71天学习30分钟【行～实践】一、修身：（对自己个人）步行5000步二、齐家：（对家庭和家人）无三、建功：（对工作)完成与Arti活动课和两节Demo准备开班事宜｛积善｝：发愿从2018年7月9日起1年
如何成为思维的高手？明安包装闫慧玲
六项精进训练营Day2复盘20210112湖北荆州学习靠氛围，成长靠圈子1.关于金钱认知金句：1.当今世界，非钱不行2.有钱能使鬼推磨3.金钱是万恶之本4.时间就是金钱5.金钱不是万能的，但是没有钱是万万不能的6.谈钱伤感情，谈感情伤钱道德系统→好人→美德→回流利益系统→好好生活天下熙熙皆为利来，天下攘攘皆为利往出自西汉著名史学家、文学家司马迁《史记》的第一百二十九章“货殖列传”。这句话意思是说天
十分钟自由写作知意zy
主题：我缺乏的东西自从加入2022年弘丹写作学院，感觉每天的生活都忙碌了起来，我要上班，要学习。所以我每天都必须拼尽全力向前奔跑，才追得上小伙伴们的脚步。在写作学院，我学会了反省自己的不足，我的想法多，缺乏的东西也太多。比如：写作的文笔，写作逻辑，底层自信心……看到社群里那么多优秀的小伙伴，我感觉自己越来越自卑，我这么一个平庸的人，会完成今年的写作目标吗？我开始不停怀疑自己是否能坚持下去。而弘丹老
2021-04-11 英英成长日记
（1）每天写50字以上的催眠语言肯定自己或孩子或爱人今天的公益沙龙第二期，你有充分的准备！所以一切都很顺利！你还可以更灵活，我相信你可以做到！你是一个有爱的人！爱能成就一切！加油！分享也是成长！你说对吗？（2）每天晚上跟潜意识沟通一次。谢谢你潜意识，今天支持我讲完两个小时沙龙！感恩你每天这样支持我成长学习！（3）每天学习三条时间管理方法，共100条。(4)自己想要坚持3件事（确定下来至少一件，坚持
忙忙碌碌才是生活北渔说
观海年后上班，因为项目接近尾声甚是消闲。说是消闲，其实身消闲，心不消闲。都说当下社会是焦虑的社会，因为人们普遍焦虑。上班已有半月，想想这好像是上班几年来最空闲的一段时间了。空闲的主要原因是工作处在了瓶颈期，心有余而力不足。因为有一颗力求完美的心，但却没有力求完美的能力，所以徒有焦虑。不知道大家有没有这种感觉，在高压学习或工作一段时间之后，突然闲下来就会茫然无措。有时候读一本长篇，好不容易结束本来应
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
职场人员学习时间管理的重大意义时间管理v8
时间管理是指通过事先规划和运用一定的技巧、方法与工具实现对时间的灵活以及有效运用，从而实现个人或组织的既定目标。职场人员能否在自己的事业生涯中取得成功，秘诀就在于搞好时间管理。世界上最重要的东西是"时间"，不能管理时间，便什么也不能管理。时间是世界上最短缺的资源，除非严加管理，否则就会一事无成。职场人员学习时间管理的重大意义职场中时间陷阱为什么职场人员总是觉得时间不够，经常会导致加班加点的工作？主
遗落的光阴古诗风光
第七篇，小明的学生时代。小明和他的同桌的共听一首歌的行为已经实现了。所以每次没事就和他的同桌一起畅听音乐，这也导致了一些场面都发生，一就是她的隔壁同桌时不时的鄙夷的眼光，二是他进一步加聚了他同桌对他的态度，他的同桌除了平时的听音乐交流之外，还增加了与他的交流。其中最关键的就是，因为他的同桌没事就与他的进行生活的交流。其中最关键的就是在一个不上课的周末小明独自一人回到了宿舍进行学习。而这时他的同桌带
Linux学习系列之vim编辑器（一） llibertyll linux 学习
vi编辑器的操作模式输入模式—aio等—>命令模式<—：键—末行模式从输入/末行模式切换到命令模式都是需要按ESC键注:a光标后输入，i光标前输入，o直接向下加一行输入，O向上加一行输入在vi编辑器中光标的移动（命令行模式下）键组合（命令）光标的移动$光标移动到当前行的结尾0（零）光标移动到当前行的开始GG光标移动到最后一行gg光标移动到第一行在命令行模式下删除与复制的操作键组合（命令）含义dd删
四叶草系统会议总结-2021-09-06 小马过河的写作空间
大家好，我是狂奔的小马哥，来自深圳，一名工程师，2020年2月注册芬香，2021年2月开始建群做芬香，2021年3月底离开了一段时间，2021年9月份重新进入这个团队首先感恩芬香公司提供的平台机会，感恩我的邀请人和老师小四老师，介绍给我这么好的事业，让我可以结识到这么好的平台和优秀的老师非常感谢老师邀请我重新参与会议，让我有机会向老师和优秀的小伙伴学习悟到：经书易得，人师难求在我离开的这段时间，我
心理简语20181122 pantene777
今天对一个朋友有了颠覆性的认识。这是个大家看来咋咋呼呼、高调行事的人，在人人都隐藏自己的现在显得特别的不合群。带着心理学习论证的任务，我今天暗暗观察了好久。在讲话的时候，这个女孩子音调高，注重礼节，斟词琢句中透露着与人相互呼应的信息，这是个用自己滋养别人的有热情的人。而且，她工作起来浑身充满了干劲，那是发自内心的爱好工作，以至于很多人觉得她是想谋得一官半职，我的直觉她是为了内心的成就感。晚上，我和
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts