云端FFF

RL 实践（1）—— 多臂赌博机

参考：《动手学强化学习》
多臂赌博机是一种简化版的强化学习问题，这种设定下只有动作和奖励，不存在状态信息（或者说全局只有一个状态，不存在状态转移）。在 RL 研究早期，很多关于评估性反馈的研究都是在这种 “非关联性的简化情况” 下进行的
关于多臂老虎机及相关算法原理的详细说明，请参考强化学习笔记（2）—— 多臂赌博机，本文主要对平衡探索和利用的诸多方法进行编程实践
注意：由于本文是jupyter文档转换来的，代码不一定可以直接运行，有些注释是jupyter给出的交互结果，而非运行结果!!

文章目录

1. 多臂老虎机
- 1.1 问题设定
- 1.2 形式化描述
- 1.3 程序实现
2. 各种平衡探索和利用的策略
- 2.1 $\epsilon$ - greedy
- 2.2 Decaying $\epsilon$ - greedy
- 2.3 基于置信度上界的动作选择（UCB）
- 2.4 汤普森采样算法（Thompson sampling）
3. 总结

1. 多臂老虎机

1.1 问题设定

多臂老虎机(multi-armed bandit，MAB) 有k个摇臂，每拉动一个摇臂，都会落下一些金币。每个拉杆都对应一个关于即时金币收益的未知分布，应该使用什么策略，才能在有限的尝试次数中获得最多金币呢？

如果拉杆的收益分布已知，直接使用贪心策略一直拉最优拉杆即可，但当分布未知时，我们一方面需要足够多的交互来估计拉杆的期望收益，另一方面又要充分利用当前的估计结果尽量最大化收益，这个简单的问题很好地反映了强化学习中的 “探索-利用困境”
多臂老虎机问题相比完整 RL 问题的显著简化是不存在状态转移。不妨设系统一直处于一个固定状态 $s$ ，操作第 $i$ 根拉杆记为动作 $a_i$ ，则该设定下任何 $s,a_i)$ 的真实价值 $Q(s,a_i)$ 都仅和此处的即时 reward $r(s,a_i)$ 相关，所有反馈都是纠正性反馈，可以保证（交互次数足够多时）经验期望就是对真实价值的良好估计。因此我们不用特别考虑价值估计方法导致的误差，特别适合研究如何平衡开发和试探

1.2 形式化描述

多臂老虎机问题可以表示为一个元组 $<\mathcal{A,R}>$ ，其中 $\mathcal{A}$ 是动作集合， $\mathcal{R}$ 是 reward 概率分布，拉动每一根拉杆的动作 $a$ 都对应一个奖励概率分布 $\mathcal{R}(r|a)$ ，不同拉杆的奖励分布通常是不同的
MAB 的优化目标：最大化有限时间 $T$ 内的累积奖励
$G_T = \max\sum_{t=1}^T r_t ,\quad r_t \sim \mathcal{R}(·|a_t)$
对于每个动作定义其价值为期望 reward，即 $Q(a)=\mathbb{E}_{r\sim\mathcal{R}(·|a)}[r]$ ，最优动作具有最大的价值 $Q^*=\max_{a\in\mathcal{A}}Q(a)$ 。定义后悔为拉动当前拉杆的动作 $a$ 与最优拉杆的期望奖励差（价值差） $R(a)=Q^*-Q(a)$ ，则一次完整的 $T$ 步决策的累计后悔为 $\sigma_R = \sum_{t=1}^T R(a_t)$ 。MAB 的优化目标最大化累积奖励等价于最小化累积懊悔
本文在 “计算经验期望作为价值估计” 和 “平均实验结果” 时都使用增量式的求均值方法，以价值估计为例，更新公式如下
$\begin{aligned} Q_{n+1} &= \frac{1}{n} \sum_{i=1}^n R_i \\ &= \frac{1}{n}(R_n+\sum_{i=1}^{n-1}R_i) \\ &= \frac{1}{n}(R_n+(n-1)\frac{1}{(n-1)}\sum_{i=1}^{n-1}R_i) \\ &= \frac{1}{n}(R_n+(n-1)Q_n) \\ &= \frac{1}{n}(R_n + nQ_n-Q_n) \\ &= Q_n + \frac{1}{n}[R_n-Q_n] \end{aligned}$

1.3 程序实现

这里实现高斯分布和伯努利分布的两个赌博机类，后面实验会用到

from typing import Tuple
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
from abc import ABCMeta
import abc
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

class BernoulliBandit:
    """ K臂伯努利多臂老虎机, 每个拉杆有p的概率 reward=1, 1-p 概率 reward=0, p 从0-1均匀分布采样 """
    def __init__(self, K):
        self.K = K
        self.values = np.random.uniform(size=K)   # 随机生成K个0～1的数, 作为拉动每根拉杆的期望reward
        self.bestAction = np.argmax(self.values)  # 获奖概率最大的拉杆
        
    def step(self, k):
        return np.random.rand() < self.values[k]  # python 中 True/False 等价于 1/0

class GaussBandit:
    """ K臂高斯老虎机, 每个拉杆期望收益采样自标准正态分布, 即时 reward 是收益期望加上高斯噪声 """
    def __init__(self, K=10):
        self.K = K                                # 摇臂数量
        self.values = np.random.randn(K)          # 从标准正态分布采样K个拉杆的收益均值
        self.bestAction = np.argmax(self.values)  # 最优动作索引
    
    def step(self, k):
        return np.random.normal(loc=self.values[k], scale=1, size=1) 

    def showDistribution(self):
        # 绘制K个拉杆即时 reward 分布的小提琴图
        fig = plt.figure(figsize=(8,5))
        foo = pd.DataFrame(columns =['Arm','Reward'])
        for i in range(10):
            foo.loc[i] = ['no'+str(i+1),np.random.normal(loc=self.values[i], scale=1, size=1000)]
            
        foo = foo.explode('Reward')
        foo['Reward'] = foo['Reward'].astype('float')
        sns.violinplot(data=foo, x='Arm', y='Reward')
        plt.show()

# 随机生成一个10臂高斯老虎机，观察拉杆 reward 分布
bandit = GaussBandit(10)
bandit.showDistribution()

2. 各种平衡探索和利用的策略

在多臂老虎机乃至完整 RL 问题中，平衡探索和利用的常用思路是在开始时做比较多的探索，在对每根拉杆都有比较准确的估计后，再进行利用。目前已有一些比较经典的算法来解决这个问题，例如 $\epsilon$ -贪婪算法、上置信界算法和汤普森采样算法等，我们接下来将分别介绍这几种算法

首先定义求解器的基类

class Solver(metaclass=ABCMeta):
    """ 多臂老虎机算法基本框架 """
    def __init__(self, bandit, initValues):
        self.bandit = bandit
        self.counts = np.zeros(self.bandit.K)  # 每根拉杆的尝试次数
        self.initValues = initValues
        self.qValues = initValues              # 当前价值估计

    @abc.abstractmethod
    def run_one_step(self) -> Tuple[int, float]:
        # 返回当前动作选择的拉杆索引以及即时reward, 由每个具体的策略实现
        pass

    def rollout(self,num_steps):
        # 运行 num_steps 次
        G, B, R = 0,0,0                         # 当前收益, 当前最优选择次数, 当前步的累积懊悔

        returnCurve = np.zeros(num_steps)       # 收益曲线
        proportionCurve = np.zeros(num_steps)   # 比例曲线
        regretCurve = np.zeros(num_steps)       # 后悔曲线
        
        self.counts = np.zeros(self.bandit.K)   # 计数清零
        self.qValues = self.initValues          # 初始化价值估计

        for i in range(num_steps):
            k, r = self.run_one_step()
            self.counts[k] += 1
            self.qValues[k] += 1. / (self.counts[k]) * (r - self.qValues[k])
            
            B += (k == self.bandit.bestAction)
            G += r
            R += self.bandit.values[self.bandit.bestAction] - self.bandit.values[k]
            
            returnCurve[i] = G/(i+1)
            proportionCurve[i] = B/(i+1)
            regretCurve[i] = R
            
        return returnCurve, proportionCurve, regretCurve

定义测试和绘图的代码

def plot(banditParas, sloverParas):
    """ 绘制收益、最优动作比例以及累计后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(9,9))
    a1 = fig.add_subplot(3,1,1,label='a1')
    a2 = fig.add_subplot(3,1,2,label='a2')
    a3 = fig.add_subplot(3,1,3,label='a3')

    a1.set_xlabel('训练步数')
    a1.set_ylabel('平均收益')
    a2.set_xlabel('训练步数')
    a2.set_ylabel('最优动作比例')
    a3.set_xlabel('训练步数')
    a3.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRCurve, avePCurve, aveRegCurve = np.zeros(banditSteps), np.zeros(banditSteps), np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            returnCurve, proportionCurve, regretCurve = solver.rollout(banditSteps)
            
            aveRCurve += 1/(i+1)*(returnCurve-aveRCurve)        # 增量式计算均值
            avePCurve += 1/(i+1)*(proportionCurve-avePCurve)    # 增量式计算均值
            aveRegCurve += 1/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRCurve,'-',linewidth=2, label=paraLabel)
        a2.plot(avePCurve,'-',linewidth=2, label=paraLabel)
        a3.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)
        
    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容
    a2.legend(fontsize=10)  
    a3.legend(fontsize=10) 

    plt.show()  

def plotRegret(banditParas, sloverParas):
    """ 只绘制后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(10,5))
    a1 = fig.add_subplot(1,1,1,label='a1')
    a1.set_xlabel('训练步数')
    a1.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRegCurve = np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            _, _, regretCurve = solver.rollout(banditSteps)
            aveRegCurve += 1.0/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容

    plt.show()

2.1 $\epsilon$ - greedy

如下选择动作，以较大概率进行贪心利用，同时以 $\epsilon$ 小概率随机探索
$a_t \leftarrow \begin{cases}\arg \max _a Q(a) & \text { with probability } 1-\varepsilon \\ \text { a random action } & \text { with probability } \varepsilon\end{cases}$

使用10臂高斯赌博机进行测试

class EpsilonGreedy(Solver):
    """ epsilon贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, epsilon = args
        super(EpsilonGreedy, self).__init__(bandit, initValues)
        self.epsilon = epsilon

    def run_one_step(self):
        if np.random.binomial(1,self.epsilon) == 1:
            k = np.random.randint(self.bandit.K)  # 随机选择一根拉杆
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])
        r = self.bandit.step(k)                      # 得到本次动作的奖励
        return k, r
        
if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 100         # 赌博机数量
    STEPS = 4000      # 交互次数
    
    banditParas = (GaussBandit, K, NUM, STEPS)
    sloverSettings = [('0.001-greedy', 0.001), ('0.1-greedy',0.1), ('0.15-greedy',0.15), ('0.25-greedy',0.25), ('0.50-greedy',0.50)]
    sloverParas = (EpsilonGreedy, np.ones(K), sloverSettings)
    
    # 根据参数列表进行对比试验
    plot(banditParas, sloverParas)

观察实验结果发现
1. 随机探索比例 $\epsilon$ 太大会导致性能上限下降，最终次优收敛
2. 随机探索比例 $\epsilon$ 太小会导致收敛缓慢
3. 无论 $\epsilon$ 如何取值，累计后悔最终都是线性增长的，这是因早期确定最优动作后就会较高比例一直执行它，其他动作只有 $\epsilon$ 概率访问，即使真的是更优动作也需要较长时间收敛实现替代。如果贪心动作一直没有变化，则策略是固定的，每一步交互的期望后悔都一致。另外注意到上图中 0.001-greedy 曲线斜率在后期变平缓，说明它在后期已经实现了最优动作的替代，如果所有策略都找到了真正的最优动作，则累计后悔曲线的斜率和 $\epsilon$ 成正比例
注意到 $\epsilon$ - greedy 方法一直以固定的比例进行探索和利用，因而很容易落入一个静态策略，导致累计后悔线性增长，我们希望随着交互的增加，对系统理解的越来越深入，策略应能一直动态调整探索和利用的倾向性。下面介绍的几个方法都针对该问题进行了改进，为了简便考虑，下面方法统一使用伯努利赌博机，只观察后悔曲线

2.2 Decaying $\epsilon$ - greedy

注意到 $\epsilon$ 控制着探索的比例，因此简单地使 $\epsilon$ 随时间减小就能达到 “早期重探索，晚期重利用” 的效果。下面设置 $\epsilon=\frac{100}{t}$ 进行实验

注：这里理论上应该设 $\epsilon=\frac{1}{t}$ ，以保证 $\epsilon<1$ 是一个合法的概率，但是测试发现这样的探索还是有点不足，这里简单地增大分子就能在早期进行更多的纯随机试探

使用伯努利赌博机测试，观察后悔曲线

class DecayingEpsilonGreedy(Solver):
    """ epsilon值随时间衰减的epsilon-贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(DecayingEpsilonGreedy, self).__init__(bandit, initValues)
        self.total_count = 0

    def run_one_step(self):
        self.total_count += 1
        if np.random.random() < 100 / self.total_count:  # 试探概率（epsilon）值随时间衰减，这里分子可以设置超过 1 来增强随机探索
            k = np.random.randint(0, self.bandit.K)
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])

        r = self.bandit.step(k)
        return k, r    

if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10          # 赌博机数量
    STEPS = 5000      # 交互次数
    
    #np.random.seed(0)
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (DecayingEpsilonGreedy, np.ones(K), [('DecayingEpsilonGreedy',)])
   
    plotRegret(banditParas, sloverParas)

从实验结果图中可以发现，随时间做反比例衰减的 $\epsilon$ - greedy 算法能够使累积懊悔与时间步的关系变成次线性（sublinear）的，这明显优于固定 $\epsilon$ 值的 $\epsilon$ -greedy 算法
Decaying $\epsilon$ - greedy 方法的问题在于 $\epsilon$ 的衰减过程是启发式设定的，并不能根据实际价值估计情况实现探索利用的自动权衡，只是强行实现了 “早期重探索，晚期重利用” 的效果

2.3 基于置信度上界的动作选择（UCB）

综合考虑 “动作价值估计有多接近最大值” 以及 “估计的不确定性” 这两个因素，根据下式选择动作
$a_t =\argmax_a\big[\hat{Q}_t(a)+c\sqrt{\frac{lnt}{2(N_t(a)+1)}}\big]$ 其中开方项代表对估计不确定性的度量， $c$ 为考虑不确定性的程度超参数， $N_t(a)$ 代表时刻 $t$ 之前 a 被选择的次数，对它加 1 以免分母出现 0。这个式子来自于 霍夫丁不等式，具体推导和说明请参考强化学习笔记（2）—— 多臂赌博机第 5 节

使用伯努利赌博机测试，观察后悔曲线

class UCB(Solver):
    """ UCB算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, coef = args
        super(UCB, self).__init__(bandit, initValues)
        self.total_count = 0
        self.coef = coef

    def run_one_step(self):
        self.total_count += 1
        ucb = self.qValues + self.coef * np.sqrt(np.log(self.total_count) / (2 * (self.counts + 1)))  # 计算上置信界
        k = np.argmax(ucb)  # 选出上置信界最大的拉杆
        r = self.bandit.step(k)
        return k, r


if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10          # 赌博机数量
    STEPS = 5000      # 交互次数
    
    #np.random.seed(0)
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (UCB, np.ones(K), [('UCB',1)])
   
    plotRegret(banditParas, sloverParas)

2.4 汤普森采样算法（Thompson sampling）

汤普森采样(Thompson sampling)是适用于 MAB 问题的一个经典算法，其核心思想就是利用交互数据直接估计出各个拉杆的奖励分布 $\mathcal{R}(r|a)$ ，然后根据它来选择动作。具体实现时
1. 使用 Beta 分布对拉杆 reward 分布进行建模（因此只适用于伯努利赌博机），关于 beta 分布请参考这里
2. 由于计算所有拉杆分布 $\mathcal{R}(r|a)$ 期望的代价比较高，汤普森采样算法使用采样的方式，每轮迭代根据当前每个动作的估计分布 $\mathcal{R}(r|a)$ 进行一轮采样，选择样本中奖励最大的动作执行，示例如下
  
  这里三个颜色就是三个动作的估计 $\mathcal{R}(r|a)$ 分布， $Q_1,Q_2,Q_3$ 则是一轮采样得到的结果， $Q_3$ 最大，执行动作 $a_3$

使用伯努利赌博机测试，观察后悔曲线

class ThompsonSampling(Solver):
    """ 汤普森采样算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(ThompsonSampling, self).__init__(bandit, initValues) # 这里 initValues 其实没用
        self._a = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为1的次数
        self._b = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为0的次数

    def run_one_step(self):
        samples = np.random.beta(self._a, self._b)  # 按照Beta分布采样一组奖励样本
        k = np.argmax(samples)                      # 选出采样奖励最大的拉杆
        r = self.bandit.step(k)

        self._a[k] += r        # 更新Beta分布的第一个参数
        self._b[k] += (1 - r)  # 更新Beta分布的第二个参数
        return k, r
    
if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10          # 赌博机数量
    STEPS = 5000      # 交互次数
    
    #np.random.seed(0)
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (ThompsonSampling, np.ones(K), [('ThompsonSampling',)])
   
    plotRegret(banditParas, sloverParas)

3. 总结

本文在多臂赌博机环境下编程验证了四种常用的平衡探索和利用的方法
1. $\epsilon$ - greedy：思想最简单，始终以固定的比例进行探索和利用，容易落入一个静态策略，累计后悔线性增长
2. Decaying $\epsilon$ - greedy：使 $\epsilon$ - greedy 中的 $\epsilon$ 逐渐减小，实现 “早期重探索，晚期重利用” 的效果，可以使累积懊悔随时间次线性增长，但是 $\epsilon$ 减小曲线是手工设定，不能完全匹配实际情况
3. 上置信界算法：综合考虑 “动作价值估计有多接近最大值” 以及 “估计的不确定性” 这两个因素设计的指标，可以使累积懊悔随时间次线性增长，能一定程度匹配实际情况，不易推广到完整 RL 问题
4. 汤普森采样算法：利用交互数据建模真实分布，再用蒙特卡洛采样选择动作的方法，最能匹配实际情况，但是仅适用于伯努利赌博机，而且没有价值估计的概念了，无法推广到完整 RL 问题

最后给出完整代码，可以直接复制粘贴到 vscode 运行

from typing import Tuple
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
from abc import ABCMeta
import abc
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# ======================================= 老虎机 =================================================
class BernoulliBandit:
    """ K臂伯努利多臂老虎机, 每个拉杆有p的概率 reward=1, 1-p 概率 reward=0, p 从0-1均匀分布采样 """
    def __init__(self, K):
        self.K = K
        self.values = np.random.uniform(size=K)   # 随机生成K个0～1的数, 作为拉动每根拉杆的期望reward
        self.bestAction = np.argmax(self.values)  # 获奖概率最大的拉杆
        
    def step(self, k):
        return np.random.rand() < self.values[k]  # python 中 True/False 等价于 1/0

class GaussBandit:
    """ K臂高斯老虎机, 每个拉杆期望收益采样自标准正态分布, 即时 reward 是收益期望加上高斯噪声 """
    def __init__(self, K=10):
        self.K = K                                # 摇臂数量
        self.values = np.random.randn(K)          # 从标准正态分布采样K个拉杆的收益均值
        self.bestAction = np.argmax(self.values)  # 最优动作索引
    
    def step(self, k):
        return np.random.normal(loc=self.values[k], scale=1, size=1) 

    def showDistribution(self):
        # 绘制K个拉杆即时 reward 分布的小提琴图
        fig = plt.figure(figsize=(8,5))
        foo = pd.DataFrame(columns =['Arm','Reward'])
        for i in range(10):
            foo.loc[i] = ['no'+str(i+1),np.random.normal(loc=self.values[i], scale=1, size=1000)]
            
        foo = foo.explode('Reward')
        foo['Reward'] = foo['Reward'].astype('float')
        sns.violinplot(data=foo, x='Arm', y='Reward')
        #plt.show()


# ======================================= 选择动作的策略 =================================================
class Solver(metaclass=ABCMeta):
    """ 多臂老虎机算法基本框架 """
    def __init__(self, bandit, initValues):
        self.bandit = bandit
        self.counts = np.zeros(self.bandit.K)  # 每根拉杆的尝试次数
        self.initValues = initValues
        self.qValues = initValues              # 当前价值估计

    @abc.abstractmethod
    def run_one_step(self) -> Tuple[int, float]:
        # 返回当前动作选择的拉杆索引以及即时reward, 由每个具体的策略实现
        pass

    def rollout(self,num_steps):
        # 运行 num_steps 次
        G, B, R = 0,0,0                         # 当前收益, 当前最优选择次数, 当前步的累积懊悔

        returnCurve = np.zeros(num_steps)       # 收益曲线
        proportionCurve = np.zeros(num_steps)   # 比例曲线
        regretCurve = np.zeros(num_steps)       # 后悔曲线
        
        self.counts = np.zeros(self.bandit.K)   # 计数清零
        self.qValues = self.initValues          # 初始化价值估计

        for i in range(num_steps):
            k, r = self.run_one_step()
            self.counts[k] += 1
            self.qValues[k] += 1. / (self.counts[k]) * (r - self.qValues[k])
            
            B += (k == self.bandit.bestAction)
            G += r
            R += self.bandit.values[self.bandit.bestAction] - self.bandit.values[k]
            
            returnCurve[i] = G/(i+1)
            proportionCurve[i] = B/(i+1)
            regretCurve[i] = R
            
        return returnCurve, proportionCurve, regretCurve

class EpsilonGreedy(Solver):
    """ epsilon贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, epsilon = args
        super(EpsilonGreedy, self).__init__(bandit, initValues)
        self.epsilon = epsilon

    def run_one_step(self):
        if np.random.binomial(1,self.epsilon) == 1:
            k = np.random.randint(self.bandit.K) 
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])
        r = self.bandit.step(k)                     
        return k, r
    
class DecayingEpsilonGreedy(Solver):
    """ epsilon值随时间衰减的epsilon-贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(DecayingEpsilonGreedy, self).__init__(bandit, initValues)
        self.total_count = 0

    def run_one_step(self):
        self.total_count += 1
        if np.random.random() < 100 / self.total_count:  # 试探概率（epsilon）值随时间衰减，这里分子可以设置超过 1 来增强随机探索
            k = np.random.randint(0, self.bandit.K)
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])

        r = self.bandit.step(k)
        return k, r    

class UCB(Solver):
    """ UCB算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, coef = args
        super(UCB, self).__init__(bandit, initValues)
        self.total_count = 0
        self.coef = coef

    def run_one_step(self):
        self.total_count += 1
        ucb = self.qValues + self.coef * np.sqrt(np.log(self.total_count) / (2 * (self.counts + 1)))  # 计算上置信界
        k = np.argmax(ucb)      # 选出上置信界最大的拉杆
        r = self.bandit.step(k)
        return k, r

class ThompsonSampling(Solver):
    """ 汤普森采样算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(ThompsonSampling, self).__init__(bandit, initValues) # 这里 initValues 其实没用
        self._a = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为1的次数
        self._b = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为0的次数

    def run_one_step(self):
        samples = np.random.beta(self._a, self._b)  # 按照Beta分布采样一组奖励样本
        k = np.argmax(samples)  # 选出采样奖励最大的拉杆
        r = self.bandit.step(k)

        self._a[k] += r         # 更新Beta分布的第一个参数
        self._b[k] += (1 - r)   # 更新Beta分布的第二个参数
        return k, r

# ======================================= 绘图方法 =================================================
def plot(banditParas, sloverParas):
    """ 绘制收益、最优动作比例以及后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(9,9))
    a1 = fig.add_subplot(3,1,1,label='a1')
    a2 = fig.add_subplot(3,1,2,label='a2')
    a3 = fig.add_subplot(3,1,3,label='a3')

    a1.set_xlabel('训练步数')
    a1.set_ylabel('平均收益')
    a2.set_xlabel('训练步数')
    a2.set_ylabel('最优动作比例')
    a3.set_xlabel('训练步数')
    a3.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRCurve, avePCurve, aveRegCurve = np.zeros(banditSteps), np.zeros(banditSteps), np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            returnCurve, proportionCurve, regretCurve = solver.rollout(banditSteps)
            
            aveRCurve += 1/(i+1)*(returnCurve-aveRCurve)        # 增量式计算均值
            avePCurve += 1/(i+1)*(proportionCurve-avePCurve)    # 增量式计算均值
            aveRegCurve += 1/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRCurve,'-',linewidth=2, label=paraLabel)
        a2.plot(avePCurve,'-',linewidth=2, label=paraLabel)
        a3.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)
        
    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容
    a2.legend(fontsize=10)  
    a3.legend(fontsize=10) 

    plt.show()  

def plotRegret(banditParas, sloverParas):
    """ 只绘制后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(10,5))
    a1 = fig.add_subplot(1,1,1,label='a1')
    a1.set_xlabel('训练步数')
    a1.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRegCurve = np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            _, _, regretCurve = solver.rollout(banditSteps)
            aveRegCurve += 1.0/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容

    plt.show()  


if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10         # 赌博机数量
    STEPS = 4000      # 交互次数
    

    # 高斯老虎机 + epsilon-greedy 完整测试
    banditParas = (GaussBandit, K, NUM, STEPS)
    sloverSettings = [('0.001-greedy', 0.001), ('0.1-greedy',0.1), ('0.15-greedy',0.15), ('0.25-greedy',0.25), ('0.50-greedy',0.50)]
    sloverParas = (EpsilonGreedy, np.ones(K), sloverSettings)
    plot(banditParas, sloverParas)
    

    '''
    # 伯努利老虎机 + epsilon-greedy 观察后悔曲线线性增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverSettings = [('0.001-greedy', 0.001), ('0.1-greedy',0.1), ('0.15-greedy',0.15), ('0.25-greedy',0.25), ('0.50-greedy',0.50), ('0.75-greedy',0.75), ('1.00-greedy',1.00)]
    sloverParas = (EpsilonGreedy, np.ones(K), sloverSettings)
    plotRegret(banditParas, sloverParas)
    '''

    '''
    # 伯努利老虎机 + decaying epsilon-greedy 观察后悔曲线对数增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (DecayingEpsilonGreedy, np.ones(K), [('DecayingEpsilonGreedy',)])
    plotRegret(banditParas, sloverParas)
    '''
    
    '''
    # 伯努利老虎机 + UCB 观察后悔曲线对数增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (UCB, np.ones(K), [('UCB',1)])
    plotRegret(banditParas, sloverParas)
    '''

    '''
    # 伯努利老虎机 + ThompsonSampling 观察后悔曲线对数增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (ThompsonSampling, np.ones(K), [('ThompsonSampling',)])
    plotRegret(banditParas, sloverParas)
    '''

你可能感兴趣的:(#,实践,#,强化学习,算法,贪心算法)

数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
关于举办第十五届蓝桥杯全国软件和信息技术专业人才大赛项目实战赛的通知 QSNKJJSW 蓝桥杯职场和发展青少年编程无人机机器人科技人工智能
各高等院校及相关单位：为贯彻落实《中国教育现代化2035》和《国务院关于印发新时期促进集成电路产业和软件产业高质量发展若干政策的通知》有关精神，为我国制造强国和网络强国战略提供人才支持，提高学生自主创新意识和工程实践能力，工业和信息化部人才交流中心决定举办第十五届蓝桥杯全国软件和信息技术专业人才大赛——项目实战赛。大赛连续四年入围中国高等教育学会“全国普通高校大学生竞赛排行榜”竞赛项目榜单。现将项
Golang标准库fmt深入解析与应用技巧 walkskyer golang标准库 golang java 数据库
Golang标准库fmt深入解析与应用技巧前言fmt包的基本使用打印与格式化输出函数Print系列函数格式化字符串格式化输入函数小结字符串格式化基本类型的格式化输出自定义类型的格式化输出控制格式化输出的宽度和精度小结错误处理与fmt使用fmt.Errorf生成错误信息fmt包与错误处理的最佳实践小结日志记录与fmtfmt包在日志记录中的应用结合log包使用fmt进行高级日志处理小结fmt与IOfm
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
2018-12-02 子分小
姓名：张颖公司：菲尔德国际英语【反省总结第146天，始于20180709今天是20181202】【知～学习】六项精进大纲背诵3遍每天十个单词坚持第181天每天学习一篇英文文章第94天英语流利说课程第71天学习30分钟【行～实践】一、修身：（对自己个人）步行5000步二、齐家：（对家庭和家人）无三、建功：（对工作)完成与Arti活动课和两节Demo准备开班事宜｛积善｝：发愿从2018年7月9日起1年
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
项目管理工具最佳实践水岩
各个公司的最佳实践去哪儿jira自定义使用1.jira编号对应git分支命名，后台增加监控程序，新增一个分支，自动解析分支中的jira编号，自动落地到数据库，完成映射2.各个发布系统间信息同步，消息中心（IC）+数据中心（DC）,广播消息加一站式查询，持续集成，推进代码检查质量，分钟级反馈质量检查反思：1.项目管好：针对一线研发人员，简单易用，而不是满足管理层的“统计度量”（...）简化分类字段，
六项精进2018-11-24 倪力
泰优汇六项精进第一组打卡记录倪力【日精进打卡第180天】一、学习与实践1.付出不亚于任何人的努力2.要谦虚，不要骄傲3.要每天反省4.活着，就要感谢5.积善行，思利他6.不要有感性的烦恼二、今日分享反省：要让思考成为一种习惯！
记录2022-05-15 果果圆
计划坚持周更，去记录生活。上周计划：①坚持练字5天，每天至少20min；②学习新内容，通过实践回顾曾学知识；③做运动，5天。④每天背单词。完成度：①练字2/5；②学习进度还不错；③运动3/5；④单词6/7。加入了一个单词小组，队友和我每天都按时打卡的情况下，APP给出的当日奖励会更高，并且最终可以瓜分奖池（奖池指的不是money哦，是APP上的一种虚拟币），当然如果有人两次没打卡，整个队伍也会失去
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
Java面试题：解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用，Java中的多线程是如何实现的，Java垃圾回收机制的基本原理，并讨论常见的垃圾回收算法杰哥在此 Java系列 java jvm 算法面试
Java内存模型与多线程的深入探讨在Java的世界里，内存模型和多线程是开发者必须掌握的核心知识点。它们不仅关系到程序的性能和稳定性，还直接影响到系统的可扩展性和可靠性。下面，我将通过三个面试题，带领大家深入理解Java内存模型、多线程以及并发编程的相关原理和实践。面试题一：请解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用。关注点：JVM内存结构的基本组成堆、栈、方法区的功能和
优化选址问题 | 基于和声搜索算法求解基站选址问题含Matlab源码天天酷科研优化选址问题（LP）matlab 和声搜索算法基站选址问题
目录问题代码问题和声搜索算法（HarmonySearch,HS）是一种模拟音乐创作过程中乐师们凭借自己的记忆，通过反复调整各乐器的音调，直至达到最美和声状态为启发，通过反复调整解向量的各分量来寻求全局最优解的智能优化算法。下面是一个基于和声搜索算法求解基站选址问题的Matlab伪代码框架。请注意，这个框架是一个基本的实现，你可能需要根据你的具体问题和约束条件进行调整和优化。代码%和声搜索算法求解基
RNA-seq数据分析_未完成子诚之组学数据分析数据分析
目录基础分析1.质控（reads）2.比对3.质控（alignment）4.定量5.样本合并差异表达1.质控（cohort）2.差异分析3.可视化（差异）富集分析肿瘤免疫1.免疫组库2.免疫浸润3.免疫响应4.新抗原预测微生物组参考本文主要覆盖了肿瘤样本bulkRNA-seq数据常见的分析步骤，并从实践角度出发，较为具体地介绍了每一步骤依赖的工具和数据集。另外，尽管本文适用于肿瘤样本，但其中的一些
4D习书——第三章李晓廲
这一章主要是介绍4D坐标的产生背景，介绍了4D系统分析领导力，并对其进行了验证。图片发自AppA正确的坐标系能把一个不可能解决的问题，变成两个可以解决的难题。M我的感觉是顿悟，我思考的是不可能的问题可以分开为几个能被解决的问题，就是分解，也就是各个击破。B对于我来说，定一个比较不易达到的目标，感觉实际实践起来应该很不容易，但是我可以分解成几个容易实现的目标。对孩子的学习辅导也是一样的，要培养孩子的
2018-08-17 天黑黑_e3af
姓名：王丽组别:第377期六项精进努力二组组员【日精进打卡第113天】【知－学习】背诵《大学》开篇5遍共100遍背诵《六项精进》大纲5遍共100遍【经典名句分享】如果，有醒不了的梦，我一定去做；如果，有走不完的路，我一定去走；如果，有变不了的爱，我一定去求。让懂的人懂，让不懂的人不懂；让世界是世界，我甘心是我的茧。【行－实践】一、修身：做事要一丝不苟的完成，今日事今日毕。二、齐家:与父母谈谈近况。
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
农村养殖什么好养又赚钱？农村养殖好项目推荐测评君高省
在目前的农村，养殖业一直是风险比较高的，所以，在农村搞养殖，项目选择很重要。那么，现在的农村，养殖什么销路好、能赚钱呢？无论养殖什么，这可都不是简单的事情，都是一门门很深的学问。需要去不断地学习，去实践。虽然养殖业做的发财的也是不少，但多数人还是会亏本，其中的因素跟市场销路，养殖成本，病死率都走很大关系！所以选择养殖项目时还是需要慎重的！近几年看到很多从前的养殖业主都投身到电商的行业中，那电商到底
SWIFT环境配置及大模型微调实践 weixin_43870390 swift 开发语言 ios
SWIFT环境配置及大模型微调实践SWIFT环境配置基础配置增量配置SWIFTQwen_audio_chat大模型微调实践问题1:问题2:问题定位解决方法手动安装pytorchSWIFT介绍参考：这里SWIFT环境配置基础配置condacreate-nswiftpython=3.8pipinstallms-swift[all]-U#下载项目gitclonehttps://github.com/mo
SWIFT介绍和学习(简单入门级别) weixin_43870390 swift 学习开发语言
SWIFT介绍和学习SWIFT功能介绍SWIFT快速使用LLM及LLM最佳实践（LLM系列文章）部署指南vllm非官方介绍资料项目地址：https://github.com/modelscope/swift任何有疑惑的地方，参考项目首页readme寻求答案SWIFT功能介绍SWIFT（可扩展的轻量级微调基础设施）是一个可扩展的框架，旨在促进轻量级模型的微调和推理。它通过采用参数高效、内存高效和时间
15届蓝桥杯备赛(3) sad_liu #sad_liu的刷题记录蓝桥杯职场和发展
文章目录15届蓝桥杯备赛(3)回溯算法组合组合总和III电话号码的字母组合组合总和组合总和II分割回文串子集子集II非递减子序列全排列全排列II贪心算法分发饼干最大子数组和买股票的最佳时机II跳跃游戏15届蓝桥杯备赛(3)提高C++程序的输入输出效率，尤其是在需要大量输入输出操作时。ios_base::sync_with_stdio(false);cin.tie(nullptr);cout.tie
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
C#杨辉三角形 wenchm c#算法数据结构
目录1.杨辉三角形定义2.用数组实现10层的杨辉三角形3.使用List泛型链表集合设计10层的杨辉三角形（1）代码解释：（2）算法中求余的作用4.使用List泛型链表集合设计10层的等腰的杨辉三角形1.杨辉三角形定义杨辉三角是一个由数字排列成的三角形数表，其最本质的特征是它的两条边都是由数字1组成的，而其余的数则等于它上方的两个数之和。杨辉三角有两种常用的表示形式。2.用数组实现10层的杨辉三角形
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

RL 实践（1）—— 多臂赌博机

文章目录

1. 多臂老虎机

1.1 问题设定

1.2 形式化描述

1.3 程序实现

2. 各种平衡探索和利用的策略

2.1 ϵ \epsilon ϵ - greedy

2.2 Decaying ϵ \epsilon ϵ - greedy

2.3 基于置信度上界的动作选择（UCB）

2.4 汤普森采样算法（Thompson sampling）

3. 总结

你可能感兴趣的:(#,实践,#,强化学习,算法,贪心算法)

2.1 $\epsilon$ - greedy

2.2 Decaying $\epsilon$ - greedy