智能体在环境中学习和作出决策

一、概述

强化学习是一类通过与环境交互获取反馈并不断优化决策策略的机器学习方法。与监督学习和无监督学习不同,强化学习直接面向序列决策问题,核心目标是找到使智能体(Agent)在环境中获得最大化累积奖励(Cumulative Reward)的策略。其理论基础通常以马尔可夫决策过程(Markov Decision Process, MDP)为框架。

MDP的五元组通常表示为 ( S , A , P , R , γ ) (S, A, P, R, \gamma)

你可能感兴趣的:(人工智能,人工智能,智能体,深度学习)