强化学习笔记持续更新......

文章目录

  • 强化学习
    • 强化学习解决的是什么样的问题?
    • 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?
    • 强化学习的损失函数(loss function)是什么?
    • 写贝尔曼方程(Bellman Equation)
    • 最优值函数和最优策略为什么等价?
    • 求解马尔科夫决策过程都有哪些方法?
    • 简述蒙特卡罗估计值函数的算法。
    • 简述时间差分算法
    • 介绍Q-Learning
    • DQN 算法
      • 基本原理
      • DQN的两个关键trick分别是什么?
      • D

你可能感兴趣的:(人工智能,深度学习,笔记)