强化学习是什么意思？

强化学习强调基于环境而行动，以取得最大化的预期利益。

强化学习的灵感来源于心理学中的行为主义理论，即智能体（Agent）在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。强化学习的主要特点是智能体和环境之间不断进行交互，智能体为了获得更多的累计奖励而不断搜索和试错。

强化学习主要由 5 个部分组成，分别是智能体、环境、状态、行动和奖励，如图1所示。

图1：强化学习的组成

图1中的智能体指计算机，计算机在强化学习过程中采取行动来操纵环境，从一个状态转变到另一个状态，当它完成任务时，系统就给予它奖励，当它没完成任务时，系统就不给予奖励，这就是强化学习的核心思想。

强化学习的分类及算法

强化学习可以分为两大类，一类是有模型的强化学习，另一类是无模型的强化学习。有模型的强化学习有动态规划法，无模型的强化学习有蒙特卡罗法和时间差分法，如图2所示。

图2：强化学习的分类

动态规划法是实现决策过程最优化的数学方法，其主要思想是求问题的最优解，求解的大问题可以分解成小问题，分解后的小问题存在最优解，将小问题的最优解组合起来就能够得到大问题的最优解。分析思路是从上往下分析问题，从下往上求解问题。

蒙特卡罗法也称统计模拟法、统计试验法，其主要思想是首先根据实际问题构造概率统计模型，问题的解恰好是模型的参数或数字特征；然后对模型进行抽样试验，给出所求解的近似值；最后统计处理模拟结果，给出问题解的统计估计值和精度估计值。

强化学习是什么意思？

强化学习的分类及算法

推荐阅读