蒙特卡洛搜索树

对于多选择任务时,采用蒙特卡洛搜索树是一个很好的选择。

推荐论文:A Survey of Monte Carlo Tree Search Methods

笔记和草稿先行协商,后期慢慢补充修改。

一、

蒙特卡洛树搜索从字面解释分为蒙特卡洛方法和树搜索。树搜索比较好理解,就是利用树形结构定位目标;蒙特卡罗方法则是以概率统计理论为指导的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。

最恰当的例子就是井字棋游戏,虽然一共有9个格子,但是对于井字游戏构建的游戏树也有一定规模。当对于围棋、象棋、麻将之类的游戏树,在复杂条件下构件游戏树时,采用穷举法已经无法实现的时候就可以尝试采用蒙特卡洛树搜索。

 

二、

蒙特卡洛树的过程主要是平衡exploration和exploiation。

原文:The basic MCTS process is conceptually very simple, as shown in Fig. 1 (from [17]). A tree is built in an incremental and asymmetric manner. For each iteration of the algorithm, a tree policy is used to find the most urgent node of the current tree. The tree policy attempts to balance considerations of exploration (look in areas that have not been well sampled yet) and exploitation (look in areas which appear to be promising). A simulation is then run from the

你可能感兴趣的:(RL)