第一章概述

强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。

  • reward、state、action都是时间序列,这就导致奖励可能是延时的
  • 状态(state) s是对世界的完整描述,不会隐藏世界的信息。观测(observation) o是对状态的部分描述,可能会遗漏一些信息。在Markov decision process(MDP)的问题中, 视o=s。
  • agent 只能看到部分的观测,我们就称这个环境是部分可观测的(partially observed)。在这种情况下面,强化学习通常被建模成一个 POMDP 的问题。
  • POMDP 可以用一个 7 元组描述:,其中 S表示状态空间,为隐变量;A 为动作空间;为状态转移概率;R 为奖励函数;为观测概率;O 为观测空间;γ 为折扣系数。
  • 基于价值迭代的方法只能应用在不连续的、离散的环境下(如围棋或某些游戏领域),对于行为集合规模庞大、动作连续的场景(如机器人控制领域),其很难学习到较好的结果(此时基于策略迭代的方法能够根据设定的策略来选择连续的动作)。

RL分类

根据 agent 学习的东西不同,我们可以把 agent 进行归类

  1. 基于价值的 agent(value-based agent)
  2. 基于策略的 agent(policy-based agent)
  3. 把 value-based 和 policy-based 结合起来就有了 Actor-Critic agent

针对是否需要对真实环境建模

  1. 有模型学习是指根据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习
  2. 免模型学习是指不对环境进行建模,直接与真实环境进行交互来学习到最优策略

免模型学习通常属于数据驱动型方法,需要大量的采样来估计状态、动作及奖励函数,从而优化动作策略。例如,在 Atari 平台上的 Space Invader 游戏中,免模型的深度强化学习需要大约 2 亿帧游戏画面才能学到比较理想的效果。相比之下,有模型学习可以在一定程度上缓解训练数据匮乏的问题,因为智能体可以在虚拟世界中行训练。

想要最大化单步奖赏需考虑两个方面:一是需知道每个动作带来的奖赏,二是要执行奖赏最大的动作。若每个动作对应的奖赏是一个确定值,那么尝试遍所有的动作便能找出奖赏最大的动作。然而,更一般的情形是,一个动作的奖赏值是来自于一个概率分布,仅通过一次尝试并不能确切地获得平均奖赏值。