date: 2020/05/17

离开 - MC Hotdog/张震岳


参考:


核心思想

image.png

(强化学习的基本组成)


代理Agent和环境Environment两个主体,代理通过观察环境(observation),总结出当前状况(state),然后作出决策(选项及其概率),从中选取一个动作action并执行(与环境进行交互interact),环境响应动作而做出变化,并且向代理反馈奖励reward。强化学习的目的就是让代理能够根据相应变化的环境做出使最终奖励最大化的一系列选择。


打个比方,代理观察到环境里有一杯水,并且作出打翻水杯的动作,环境响应动作变为“水杯被打翻,洒在地上”的状态,并且向代理作出惩罚(负的奖励);接下来,代理观察到环境里有一滩水,并且作出拖地的动作,环境响应变为“地板变干”的状态,并向代理作出奖励。

image.png

(举例:惩罚)

image.png

(举例:奖励)


代理的组成

一个代理通常由决策Policy、价值评估Value、环境建模Model其中一个或多个组成(比如AlphaGo就是由三者的组合)

image.png

(代理Agent的组成)



特点

相比于监督学习(Supervised Learning, SL)