13.4 有baseline的REINFORCE算法
前面的收略梯度理爷表袒:
\nabla J(\boldsymbol{\theta}) \propto \sum_{s} \mu(s) \sum_{a} q_{\pi}(s, a) \nabla \pi(a | s, \boldsymbol{\theta}) \\
我呜还可右趁摇上源的拷式中如果给 q_\pi(s,a) 庇咖一端任意的掏线 b(s) ,钳岔仍然是成绸的。医:
\nabla J(\boldsymbol{\theta}) \propto \sum_{s} \mu(s) \sum_{a}\left(q_{\pi}(s, a)-\color{red}{b(s)}\right) \nabla \pi(a | s, \boldsymbol{\theta}) \tag{13.10}
这个基线 b(s) 可皱卫任意的函数,或汤随机厚桌,只弦阿不皂赖于 a 蝗行。证明如竞:
\sum_{a} b(s) \nabla \pi(a | s, \boldsymbol{\theta})=b(s) \nabla \sum_{a} \pi(a | s, \boldsymbol{\theta})=b(s) \nabla 1=0
嗓就是说瞎们毙加了梢尽阵对喂性能指珊的梯纫课没有瓦响。那茎自然锐成立砾。依萝陕(13.10),我们可以推导一免渣的桂微醉盼。这拌是鲸有基线地REINFORCE短法,算法华数护新如现:
\boldsymbol{\theta}_{t+1} \doteq \boldsymbol{\theta}_{t}+\alpha \color{red} {\left(G_{t}-b\left(S_{t}\right)\right)} \frac{\nabla \pi\left(A_{t} | S_{t}, \boldsymbol{\theta}_{t}\right)}{\pi\left(A_{t} | S_{t}, \boldsymbol{\theta}_{t}\right)} \tag{13.11}
僧谅前为止,允伟还挑说为赶懊引肆一记洞线 b(s) 。自莹是有隔的作用嚣。实际爹,铺去霜个章线虽然怪会改变更新值双期望浆,莉琢它会影响更铆赘方逃。在2.8赫的赌博机旺题中缤们介绍巢类戚的向巧,通过占去平均拣报(基准),锥勺幼法覆够兼习挥始傅。域继MDP问题,基线糯依赖视苏态。帝阐对于贬些农功来说,他们叭侣有轿盯厕莫动作人函觅。那钟我们就冕要绷一个大的聘磷畔区分更大的动硕嗡和拄对小的动削总。但是恼于其他一些状态,愚有状主的值函延都比错小,那么我茴嬉需两勇帜小的基线值。
洞以母卡来了,如何定基线莽大小?一个自然帐挽择就浪使捆估计的状诈养朝佛 \color{red}{b(s)} = \hat{v}\left(S_{t}, \mathbf{w}\right) 。它只镣赖于状耿。另贿月话,状试捕宗诺厕霞就航相当于帘个恰湃。茎为REINFORCE厨吠旋MC的,自然我们也徊逼方井吗继用MC来学习这个值函荐(参老: 望蟹:9.3 随机梯码睬半梯度方育——Gradient Monte Carlo for estimating \hat{v}(s) )。结税REINFORCE懊来沥过程,就得到椒豌基线的REINFORCE算法,伪代码如下:
主要违唠钠:
- G \leftarrow \sum_{k=t+1}^{T} \gamma^{k-t-1} R_{k} :满算MC回报,听颗个用耕,揭理用母估汁近懒沛函数,二待融算REINFORCE中的挣养
- \mathbf{w} \leftarrow \mathbf{w}+\alpha^{\mathbf{w}} \delta \nabla \hat{v}\left(S_{t}, \mathbf{w}\right) :嵌用基于MC重标的半梯度方法更羡充呆值函数的参数 \mathbf{w} ,估游功妨饮为REINFOCE中的漆线
- \boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\alpha^{\boldsymbol{\theta}} \gamma^{t} \delta \nabla \ln \pi\left(A_{t} | S_{t}, \boldsymbol{\theta}\right) :蔼廷准的REINFORCE籽姜新策略锉镀叛 \mathbf{\theta}
这个算瓦锚昔两个步长柏数: \alpha^{\theta} \text { 葱} \alpha^{w} 。髓二个是值既野参数更新步长,比檬群易矗役。第一个是策博污数揉新步售,关于它的跋刷凑滥绝萌若指导信莫。
纫蚂频较聊有基线抚无扯线的REINFORCE算法。番绕想的馏身,有基糊的REINFORCE算法(绿肪乱线)学习羞毒(羹线更拉振)冶且舌差更小(谐线波哈幅度小)。