【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem

论文中使用一个PointerFormer模型
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem_第1张图片

  • 编码器部分:可逆残差模型堆叠
  • 解码器部分:指针网络自回归

对于一次任务而言,推理阶段:

  1. 编码器部分:一次
  2. 解码器部分:循环N次,直至任务结束

在训练阶段,使用强化学习,对于一个N个节点的TSP实例,算法中会以不同的起点,跑N次,得到N个轨迹,以满足TSP的对称特性,表示这都是属于一个TSP问题的(真实)解
然后会计算
在这里插入图片描述

这样表示归一化奖励,得到一个advantage,然后再带入策略梯度的计算
算法中,其不会计算每一步的奖励,而是等生成一个解后,计算全局奖励,再计算损失进行反向传播

你可能感兴趣的:(online笔记,论文,论文阅读,transformer,深度学习)