高能阿博特

强化学习笔记（二）

策略评估
预测与控制
动态规划
马尔可夫决策过程中的策略评估（预测）
马尔可夫决策过程控制
策略迭代
- 贝尔曼最优方程
价值迭代
- 最优性原理定理
- 确认性价值迭代
- 价值迭代算法
- 价值迭代和策略迭代的区别
动态规划算法总结表

参考书目：蘑菇书，链接蘑菇书
本系列笔记仅为个人学习所用，不涉及商业价值

策略评估

已知马尔可夫决策过程、要采取的策略 $\pi$ ，计算价值函数 $V_\pi (s)$ 的过程就是策略评估，又称为价值预测。
可以通过贝尔曼方程得到价值函数：
$V_\pi^k (s) = r (s, \pi(s)) + \gamma \sum_{s' \in S} p(s' \vert s, \pi(s)) V_\pi^{k-1} (s') \tag{2.37}`$ 其中 $k$ 是迭代次数。通过不停迭代之后V会收敛，收敛之后，V的值就是每一个状态的价值。例如，现在有随机策略，在每个状态 $s$ 下，都有0.5的概率向左走，0.5的概率向右走，即 $p(\pi(s)=左)=0.5, p(\pi(s)=右)=0.5$ ；可以先对 $V (s^{'})$ 初始化，不同的 $V (s^{'})$ 都有一个值；之后将 $V (s^{'})$ 代入贝尔曼期望方程(2.37)进行迭代，最终收敛即可。

预测与控制

预测：输入是马尔可夫决策过程 $< S, A, P, R, γ >$ 与策略 $\pi$ ，输出是价值函数 $V_\pi$ 。预测是指给定一个马尔可夫决策过程、一个策略 $\pi$ ，计算其价值函数，即每个状态的价值V。
预测实质是评估一个给定的策略。
控制：输入是马尔可夫决策过程 $< S, A, P, R, γ >$ 与策略 $\pi$ ，输出是最佳价值函数 $V^*$ 与最佳策略 $\pi^*$ 。
控制实质是寻找一个最佳策略，然后输出对应的最佳价值函数和最佳策略。
二者一个在于评估，一个在于寻找。因此，可以通过解决预测问题，进而解决控制问题（理解：在控制过程中将会不断尝试不同的策略，二每个策略都需要进行评估，即预测过程。评估后才能保留下来好的策略，逐步找到最佳策略，也就是达到了控制）。

动态规划

动态规划适合解决满足最优子结构和重叠子问题两个性质的问题。
最优子结构：问题可以拆分成一个个小问题，通过解决小问题，组合小问题的答案，得到原问题的解。
重叠子问题：子问题出现多次，且其解决方案可以重复使用，可以保存子问题的首次计算结果，后续直接调用。
马尔可夫决策过程满足动态规划，在贝尔曼方程中可以把它分解成递归的结构（此处关于递归的理解：通过不断迭代贝尔曼方程，最终“递归”到最佳策略）。
注意：动态规划应用在马尔可夫决策过程的规划问题而不是学习问题，必须对环境完全已知，即需要知道状态转移概率和对应的奖励，否则贝尔曼方程无法求解，也就无法递归。

马尔可夫决策过程中的策略评估（预测）

给定马尔可夫决策过程和策略，评估可以获得的价值。可以直接把贝尔曼期望进行备份（即在备份图中往上、往根节点进行回溯），变成迭代过程，反复迭代直到收敛。这个过程可以看做同步备份的过程。
同步备份指每一次的迭代都会完全更新所有状态。
异步备份指每一次跌了不需要更新所有状态。

下式指，我们可以把贝尔曼期望备份转换成动态规划的迭代。当得到上一时刻的 $V_t$ 时，可以通过递推关系得出下一时刻的值（因为环境完全已知，可以直接推算出来）。反复迭代，最后V的值就是从 $V_1$ 、 $V_2$ 直到收敛后的 $V_\pi$ ，即当前给定策略 $\pi$ 的价值函数。
$V^{t+1} = \sum_{a \in A} \pi (a \vert s) \left( R(s,a) + \gamma \sum_{s' \in S} p(s' \vert s,a) V^t(s') \right) \tag{2.39}$ 策略评估的核心思想就是把式(2.39)所示的贝尔曼期望备份进行反复迭代，得到收敛的价值函数的值。由于策略函数 $\pi$ 给定，所以可以把上式简化成马尔可夫奖励过程的表达形式，即把 $a$ 去掉（因策略确定了，即确定了采取什么动作）：
$V_{t+1} (s) = r_\pi (s) + \gamma P_\pi (s' \vert s) V_t (s') \tag{2.40}$ 通过迭代(2.40)，就可以得到每个状态的价值。由于此时策略（即具体采取什么动作）已经确定，因此在不断迭代过程中，得到的是在动作固定的情况下，从当前状态进入未来状态后，未来状态能得到的价值。
注意：这里的迭代，并不是指一直到仿真结束后计算奖励，而是仅仅在 $s$ 和 $s^{'}$ 之间进行反复计算，直到二者的V值稳定。

马尔可夫决策过程控制

策略评估（预测）是指定马尔可夫决策过程和策略，估算V值。
当策略不给定时，只有马尔可夫决策过程，逐步找到最佳价值函数的过程，就是控制。
最佳价值函数为
$V^* (s) = \max_\pi V_\pi (s)$ 即当策略为使得V取最大的 $\pi$ 时，对应的V值，或者说，变换 $\pi$ ，直到V取最大，这个最大V值就是最佳价值函数。在这个过程中得到的策略，自然也就是最佳策略：
$\pi^* (s) = \argmax_\pi V_\pi (s)$ 最佳策略使每个状态的价值函数都取最大值。因此如果可以得到最佳价值函数，就可认为某个马尔可夫决策过程的环境可解。
注：最佳函数可能是一致的，但最佳策略不唯一。

最佳策略也可以传统弓最大化Q函数来获取：
$\pi^* (a \vert s) = \begin{cases} 1, \quad a = \argmax_{a \in A} Q^*(s,a) \\ 0, \quad 其他 \end{cases}$ 当Q收敛后，由于Q是关于 $s$ 和 $a$ 的函数，因此如果Q最大了，那么表明在某个状态下，采取的动作就是最佳动作。换句话说，如果能优化出一个 $Q^*$ ，就可以直接在Q函数中去一个能让Q最大的 $a$ ，从而对应最佳策略。

进行策略搜索的方式：
最近单的方式就是穷举。
其他常用方法：策略迭代和价值迭代。
寻找最佳策略的过程就是马尔可夫决策过程的控制过程，马尔可夫决策过程控制就是去寻找一个最佳策略，来得到最大的价值函数。
对一个事先定好的马尔可夫决策过程，当采取最佳策略时，最佳策略一般都是确定的，稳定的，不是时变的，但不一定是唯一的。

策略迭代

由2个步骤组成：策略评估和策略改进。
先保证策略不变，估计其价值函数，然后进一步推算出Q函数；之后对Q函数直接进行最大化，在Q函数做贪心搜索，进行改进策略。
$\rightarrow 策略\pi \rightarrow 估计V_\pi(s) \rightarrow Q_\pi = R(s,a) + \gamma \sum_{s'} p(s' \vert s, a) V_\pi (s') \\ \rightarrow Q^* = \max_{a^*} Q \rightarrow 贪心算法，下一次经过该状态时，采取动作a^*的概率增加$ 反复迭代即可。

策略改进的过程：
得到V后，计算Q函数：
$Q_{\pi_i} (s,a) = R(s,a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V_\pi (s')$ 对每个状态，取使它达到最大值的动作
$\pi_{i+1} (s) = \argmax_a Q_{\pi_i} (s,a) \tag{2.46}$ 注意这里的下标， $\pi$ 是 $Q$ 对应的后面一步。
得到策略的更新。随着Q越来越大，Q逐渐趋近于一个稳定值，在这个过程中 $\pi$ 也逐渐趋于稳定值。
把Q函数改写成Q表格：横轴为状态，纵轴为动作，那么得到Q函数后就得到了Q表格。对于某个状态，在每一列中取最大的值，该最大值对应的动作就是应该采取的动作。

贝尔曼最优方程

以上一直采取 $\argmax$ 操作、使Q不断单调递增的过程，即为贪心操作。
由于
$V_\pi = \sum \pi ( a \vert s) Q(s,a)$ 有了最佳策略后，每个状态下应该采取的动作就确定了，因此每个状态下 $\pi( a \vert s) = 1$ 。此时让Q直接取最大，就能直接把上式变为V函数
$Q_\pi (s, \pi'(s)) = \max_{a \in A} Q_\pi(s, a) = Q_\pi (s, \pi (s)) = V_\pi (s)$ 也就得到了贝尔曼最优方程：
$V_\pi (s) = \max_{a \in A} Q_\pi (s,a) \tag{2.49}$ 表明：最佳策略下的一个状态的价值必须等于在这个状态下采取最佳动作得到的回报的期望。换句话说：在采取最佳策略后，V和Q相等。

只有当整个状态收敛后、得到最佳价值函数后，贝尔曼最优方程才满足。当马尔可夫决策过程满足贝尔曼最优方程时，整个马尔可夫决策过程已经达到最佳状态。
Q函数的贝尔曼方程：
$Q^* (s,a) = R(s,a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V^* (s') \tag{2.50}$ 把(2.49)代入(2.50)有
$Q^* (s,a) = R(s,a) + \gamma \sum_{s' \in S} p(s' \vert s, a) \max_a Q^* (s',a') \tag{2.51}$ 即为Q函数之间的转移。
同样地可以得到V函数之间的转移：
$V^* (s) = \max_a \left( R(s,a) + \gamma \sum_{s' in S} p(s' \vert s,a) V^* (s') \right) \tag{2.53}$

价值迭代

动态规划的方法把优化问题分成2部分：1）执行最优动作；2）后继的状态每一步都按照最优的策略去做，最后结果就是最优的。

最优性原理定理

最优性原理定理：一个策略 $\pi(a \vert s)$ 在状态 $s$ 达到了最优价值，即 $V_\pi(s) = V^* (s)$ ，当且仅当对于任何能够从 $s$ 到达的 $s^{'}$ ，都已经达到了最优价值。换句话说，对于所有的 $s^{'}$ ， $V_\pi(s') = V^* (s)$ 恒成立，或者每一个 $s$ 的V都是最优的。

确认性价值迭代

若知道子问题 $V^*(s')$ 的最优解，就可以通过价值迭代得到最优的 $V^*(s)$ 的解。价值迭代就是把贝尔曼最优方程当成一个更新规则来进行，即
$\leftarrow \max_{a \in A} \left( \overbrace{ R(s,a) + \gamma \sum_{s' \in S} p(s' \vert s,a) V(s') }^{Q(s,a)} \right) \tag{2.54}$ 即强行把 $\max Q$ 直接赋值给V， $\leftarrow \max Q$ 。
只有当整个马尔可夫决策过程达到最佳状态时上式才满足，但仍然可以使用它不断迭代贝尔曼最优方程，价值函数逐渐趋向最佳。这是价值迭代算法的精髓。
对每个状态的V，直接通过贝尔曼最优方程进行迭代，迭代多次之后，价值函数就会收敛。这种价值迭代算法发也被称为确认性价值迭代。

价值迭代算法

初始化： $k = 1$ ，对所有状态 $s$ ， $V_0 (s) = 0$ 。
对于 $k$ 从1到迭代次数 $H$ ：
a) 对于所有状态 $s$ ：
$Q_{k+1} (s,a) = R(s,a) + \gamma \sum_{s' \in S} p(s' \vert s,a) V_k(s') \tag{2.55}$ $V_{k+1} (s) = \max_a Q_{k+1} (s,a) \tag{2.56}$ b) $\leftarrow k+1$ 。
上述a和b一直反复循环，V和Q互相计算。在达到迭代步数 $H$ 后，提取最优策略，参照式(2.46)：
$\pi(s) = \argmax_a Q_{H+2} (s,a) = \argmax_a \left[ R(s,a) + \gamma \sum_{s' \in S} p(s' \vert s,a) V_{H+1}(s') \right]$

价值迭代和策略迭代的区别

价值迭代做的工作类似于价值的反向传播，每次迭代就做一步传播（因为是V和Q在互相利用彼此进行迭代计算）。
策略迭代的每一次迭代的结果都是有意义的，都是一个完整的策略（因为每一步都得到一个新策略）。
价值迭代像是从某一个状态反向传播到其他各个状态的过程，每次迭代只影响到与之直接相关的状态，是直接对价值函数V和Q进行操作的，直接进行V和Q之间的互相代入计算。
策略迭代是利用一个策略计算出Q，把Q进行最大化之后，反求出使得Q最大化的那个策略，因此每一步都能产生一个策略。
对于价值迭代来说，如果某次迭代求解的某个状态 $s$ 的价值函数 $V_{k+1}$ 是最优解，它的前提是能够从该状态到达的所有状态 $s^{'}$ 也都已经得到了最优解。如果它的相邻节点价值发生了变化，变得更好了，那么它的价值也会变得更好，如此反复迭代，直到相邻节点都不变。因此，中间迭代过程的数据只是一种暂存的不完整的数据，所以中间生成的策略都是没有意义的不佳的策略。
策略迭代分2步，首先策略评估，对当前已经搜索到的策略进行估计价值函数，得到估值后进行策略改进，也就是计算出Q函数，使其取最大值，然后反求出策略。不断重复这两步，直到策略收敛。可见策略迭代是在每一次迭代中，都求出了新的策略，不仅Q进行迭代，策略本身也在迭代。
价值迭代直接使用贝尔曼最优方程进行迭代，即V推出Q、Q代入推出V的相互计算过程，是个纯数学过程，直到该过程收敛，V和Q稳定。稳定后，得到的V就是最佳价值函数，Q亦然。在此基础上求出使Q到达最大化的策略即可。可见价值迭代是在迭代之后，再进行一次单独的求解策略的。

动态规划算法总结表

问题	贝尔曼方程	算法
预测	贝尔曼方程 $\gamma \sum P(s' \vert s) V(s')$	迭代策略评估
控制	贝尔曼期望方程 $\gamma \sum pV', V = \sum \pi \left( R + \gamma \sum p V' \right), Q = R + \gamma \sum p \sum \pi' Q'$	策略迭代
控制	贝尔曼最优方程 $V^* = \max Q^, Q^ = R + \gamma \sum p \max Q'^*$	价值迭代

日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
【花了N长时间读《过犹不及》，不断练习，可以越通透】君君Love
我已经记不清花了多长时间去读《过犹不及》，读书笔记都写了42页，这算是读得特别精细的了。是一本难得的好书，虽然书中很多内容和圣经吻合，我不是基督徒，却觉得这样的文字值得细细品味，和我们的生活息息相关。我是个界线建立不牢固的人，常常愧疚，常常害怕他人的愤怒，常常不懂拒绝，还有很多时候表达不了自己真实的感受，心里在说不嘴里却在说好……这本书给我很多的启示，让我学会了怎样去建立属于自己的清晰的界限。建立
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
第八课: 写作出版你最关心的出书流程和市场分析（无戒学堂复盘）人在陌上
今天是周六，恰是圣诞节。推掉了两个需要凑腿的牌局，在一个手机，一个笔记本，一台电脑，一杯热茶的陪伴下，一个人静静地回听无戒学堂的最后一堂课。感谢这一个月，让自己的习惯开始改变，至少，可以静坐一个下午而不觉得乏味枯燥难受了，要为自己点个赞。我深知，这最后一堂课的内容，以我的资质和毅力，可能永远都用不上。但很明显，无戒学堂是用了心的，毕竟，有很多优秀学员，已经具备了写作能力，马上就要用到这堂课的内容。
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
《感官品牌》读书笔记 1 西红柿阿达
原文:最近我在东京街头闲逛时，与一位女士擦肩而过，我发现她的香水味似曾相识。“哗”的一下，记亿和情感立刻像潮水般涌了出来。这个香水味把我带回了15年前上高中的时候，我的一位亲密好友也是用这款香水。一瞬间，我呆站在那里，东京的街景逐渐淡出，取而代之的是我年少时的丹麦以及喜悦、悲伤、恐惧、困惑的记忆。我被这熟悉的香水味征服了。感想:感官是有记忆的，你所听到，看到，闻到过的有代表性的事件都会在大脑中深深
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
我不想再当知识的搬运工楚煜楚尧
因为学校课题研究的需要，这个暑假我依然需要完成一本书的阅读笔记。我选的是管建刚老师的《习课堂十讲》。这本书，之前我读过，所以重读的时候，感到很亲切，摘抄起来更是非常得心应手。20页，40面，抄了十天，终于在今天大功告成了。这对之前什么事都要一拖再拖的我来说，是破天荒的改变。我发现至从认识小尘老师以后，我的确发生了很大的改变。遇到必须做却总是犹豫不去做的事，我学会了按照小尘老师说的那样，在心里默默数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
20210517坚持分享53天读书摘抄笔记非暴力沟通——爱自己 f79a6556cb19
让生命之花绽放在赫布·加德纳（HerbGardner）编写的《一千个小丑》一剧中，主人公拒绝将他12岁的外甥交给儿童福利院。他郑重地说道：“我希望他准确无误地知道他是多么特殊的生命，要不，他在成长的过程中将会忽视这一点。我希望他保持清醒，并看到各种奇妙的可能。我希望他知道，一旦有机会，排除万难给世界一点触动是值得的。我还希望他知道为什么他是一个人，而不是一张椅子。”然而，一旦负面的自我评价使我们看
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
Unity学习笔记1 zy_777
通过一个星期的简单学习，初步了解了下unity，unity的使用，以及场景的布局，UI，以及用C#做一些简单的逻辑。好记性不如烂笔头，一些关键帧还是记起来比较好，哈哈，不然可能转瞬即逝了，（PS:纯小白观点，unity大神可以直接忽略了）一：MonoBehaviour类的初始化1，Instantiate()创建GameObject2，通过Awake()和Start()来做初始化3，Update、L
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

强化学习笔记（二）

强化学习笔记（二）

策略评估

预测与控制

动态规划

马尔可夫决策过程中的策略评估（预测）

马尔可夫决策过程控制

策略迭代

贝尔曼最优方程

价值迭代

最优性原理定理

确认性价值迭代

价值迭代算法

价值迭代和策略迭代的区别

动态规划算法总结表

你可能感兴趣的:(算法,强化学习,笔记,机器学习)