第一章概述

强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。

reward、state、action都是时间序列，这就导致奖励可能是延时的
状态(state) s是对世界的完整描述，不会隐藏世界的信息。观测(observation) o是对状态的部分描述，可能会遗漏一些信息。在Markov decision process(MDP)的问题中, 视o=s。
agent 只能看到部分的观测，我们就称这个环境是部分可观测的(partially observed)。在这种情况下面，强化学习通常被建模成一个 POMDP 的问题。
POMDP 可以用一个 7 元组描述： $(S, A, T, R, Ω, O, γ)$ ，其中 S表示状态空间，为隐变量；A 为动作空间； $T (s^{'} ∣ s, a)$ 为状态转移概率；R 为奖励函数； $Ω (o ∣ s, a)$ 为观测概率；O 为观测空间；γ 为折扣系数。
基于价值迭代的方法只能应用在不连续的、离散的环境下（如围棋或某些游戏领域），对于行为集合规模庞大、动作连续的场景（如机器人控制领域），其很难学习到较好的结果（此时基于策略迭代的方法能够根据设定的策略来选择连续的动作)。

RL分类

根据 agent 学习的东西不同，我们可以把 agent 进行归类

基于价值的 agent(value-based agent)
基于策略的 agent(policy-based agent)
把 value-based 和 policy-based 结合起来就有了 Actor-Critic agent

针对是否需要对真实环境建模

有模型学习是指根据环境中的经验，构建一个虚拟世界，同时在真实环境和虚拟世界中学习
免模型学习是指不对环境进行建模，直接与真实环境进行交互来学习到最优策略

免模型学习通常属于数据驱动型方法，需要大量的采样来估计状态、动作及奖励函数，从而优化动作策略。例如，在 Atari 平台上的 Space Invader 游戏中，免模型的深度强化学习需要大约 2 亿帧游戏画面才能学到比较理想的效果。相比之下，有模型学习可以在一定程度上缓解训练数据匮乏的问题，因为智能体可以在虚拟世界中行训练。

想要最大化单步奖赏需考虑两个方面：一是需知道每个动作带来的奖赏，二是要执行奖赏最大的动作。若每个动作对应的奖赏是一个确定值，那么尝试遍所有的动作便能找出奖赏最大的动作。然而，更一般的情形是，一个动作的奖赏值是来自于一个概率分布，仅通过一次尝试并不能确切地获得平均奖赏值。

数字剪影

Explorer

第一章概述

第一章概述

RL分类

Graph View

Table of Contents