强化学习的介绍——问题的形式化表达
对应Deepmind 2021第一讲。
视频地址:DeepMind x UCL RL Lecture Series - Introduction to Reinforcement Learning [1/13]
演示文稿:Reinforcement Learning Lecture 1: Introduction
讲授人:Hado van Hasselt
0. 前言
强化学习是什么?
Science and framework of learning to make decisions from interaction
要求我们考虑什么?
- 时间 time
- 动作的长期结果 (long-term) consequences of actions
- 主动地积累经验 actively gathering experience
- 预测未来 predicting the future
- 处理不确定性 dealing with uncertainty
同时,强化学习问题是人工智能问题的结构化表达,且拥有巨大的可能性(huge potential scope)。
1. 强化学习问题的形式化表达
离散化时间假定
此课程不讨论连续时间强化学习,并假定时间戳
强化学习本质上是一种交互,即行为人(以下称"agent")与环境间的交互。
(该图片位于该课程演示文稿的第21页)
在学习过程中,行为人与环境循环交互,在时间点
Agents <-> Environment
行为人将:
- 从环境处观测
(在全观测模型下,可以直接写为状态 )和收益 。 - 执行(向环境发送)动作
环境将:
- 从行为人处获取动作
- 生成观测
和收益
其中,“观测”,“状态”,“收益”,“动作”分别对应英文名词observation, state, reward, action
a. 收益和价值 reward & value
收益
Any goal can be formalized as the outcome of maximizing a cumulative reward.
一切目标都被形式化为最大化累计收益策略带来的结果。
基于这个假设,站在第
其中,我们称
显然,
价值函数也不是确定的,因为还有一个变量没有控制,即行为人做出的决策
进一步,我们可以将其写成递归的形式:
b. 选取行动来最大化价值 maximizing value by taking actions
再次复读我们的终极目标:选取行动来最大化价值
其深层含义是,我们可以暂时牺牲当前期的收益,选择一个现在可能显得很亏但未来有更大长期收益的选择,而这样也是值得的:
It may be better to sacrifice immediate reward to gain more long-term reward.
这样就引出了策略(policy)的概念:
定义:策略
策略是状态集到动作集的映射。
A mapping from states to actions is called a "policy".
类似的,我们可以定义出特定状态下某一动作的期望价值,记作
小结:主要的概念
我们回过头来总结一下强化学习问题的核心概念:
- 环境,environment, 即问题所在的动态系统;
- 收益,reward, 来自环境的信号,并且基于此给定了agent的目标
-
行为人,agent, 它包括了:
- 行为人状态, agent state
- 策略, policy
- 价值函数及其估计, value function estimate
- 模型, model,即行为人自身对环境动态变化规律的预测。强化学习系统中根据行为人设不设置模型,可以将其分为model-free, model-based,即无模型学习或基于模型的学习。
2. 对agent的讨论
参照此图(演示文稿第28页):
图的左侧和右侧是时间
agent的状态能有什么?
简言之,行为人从这一期继承到下一期的所有东西,都会算作state,例如:
- 长期性的策略(尽管随着时间不断学习)
- 对环境的学习(也就是前面所说的“模型”)
- 其实有时候预测、瞬时策略也可以是状态的一部分。
还有很多其他的东西,例如在投资问题中,行为人的预算、风险厌恶系数等。
环境的状态——硬币的另一面
但硬币的另一面是环境的状态,即环境的内在状态。一般来说,它不可观测——或者只能看到某种切片,也许它可观测,但规模非常庞大,其中包含的很多信息可能毫无用处。
不能直接观测环境状态的问题称作POMDP,即Partially observable Markov decision process,部分可观测的马尔可夫决策过程。接下来我们会讨论到这个问题。
另外声明,我们讨论的强化学习问题中,符号
站在agent的角度上看,在做出动作
历史和agent状态的关系
通常来说,历史是行为人状态(而非环境状态)的主要构造来源——很大程度上也是唯一的来源。
a. 极特殊的简单情形:完全可观测的环境
(Fully observable environement)
这是一个很特殊的情况,行为人对环境的观测完全等同于环境的实际状态,那么行为人可以直接依赖于环境状态做出决策,什么历史啥的都去他的吧,行为人的状态就是环境状态,都是
这显然不符合常理,但它真的简单。同时,在假定全可观测的情况下,我们可以定义马尔可夫决策过程。
b. 马尔可夫决策过程(Markov decision process)
马尔可夫决策过程来自于马尔可夫性的应用,即有如下定义:
定义:马尔可夫决策过程
若满足下式,则一个决策过程是马尔可夫决策过程:
这个定义表明,在已知当前agent状态(包含了环境状态)的前提下,增加之前的历史并不会带来任何作用,这不代表agent状态
只和最近一期的观测(或实际状态)相关。
c. 现实情况:部分可观测的环境
比方说,机器人的镜头看到的不能代表它的位置,打牌时也看不到别人的手牌。显然,这种情况下观测不具有马尔可夫性——
这种情况下,我们将这个过程称作POMDP,即部分可观测的马尔可夫决策过程(Partially observable Markov decision process)。在这个过程中,环境的状态仍然是具有马尔可夫性的,只是我们看不到它,但我们仍然可以构造一个具备马尔可夫性的agent状态——全历史序列
所以,我们重新讨论agent的状态。它必然是历史
其中
迷宫的例子
可以参照演示文稿第35-39页的迷宫,对应视频47:30-53:30的部分。