深度强化学习-带基线的策略梯度算法原理

引言本文主要介绍策略梯度算法的一种改进——带基线的策略梯度算法(Reinforce with baseline)。通过引入基线,有效降低了学习过程中的方差,从而提升训练过程的稳定性。1 基线基线函数可以是任意随机函数或确定函数,它可以与状态有关,但是不能和动作有关。满足这样的条件后,基线函数自然满足证明:由于和动作无关,所以进而得证。…

目录

引言

本文主要介绍策略梯度算法的一种改进——带基线的策略梯度算法(Reinforce with baseline)。通过引入基线,有效降低了学习过程中的方差,从而提升训练过程的稳定性。

1 基线

基线函数B(s)可以是任意随机函数或确定函数,它可以与状态s有关,但是不能和动作a有关。满足这样的条件后,基线函数自然满足

E\left [ \gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right )\triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]=E\left [ \gamma ^{t}G_{t}ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]

 证明:

由于B(s)和动作a无关,所以

\sum_{a}^{}B\left ( S_{t} \right )\triangledown \pi _{\theta }(a\mid S_{t})=B\left ( S_{t} \right )\triangledown \sum_{a}^{}\pi _{\theta }(a\mid S_{t})=B\left ( S_{t} \right )\triangledown 1=0

进而

 E\left [ \gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right )\triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]

=\sum_{a}^{}\gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right )\pi _{\theta }(A_{t}\mid S_{t})\triangledown ln\pi _{\theta }(A_{t}\mid S_{t})

=\sum_{a}^{}\gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right )\triangledown \pi _{\theta }(A_{t}\mid S_{t})

=\sum_{a}^{}\gamma ^{t}G_{t}\triangledown \pi _{\theta }(A_{t}\mid S_{t})

=E\left [ \gamma ^{t}G_{t}\triangledown ln\pi _{\theta }(A_{t}\mid S_{t}) \right ]

得证。

2 如何选择基线

选择基线时,应当参照一下两个思想:

1.基线的选择应当有效降低方差。一个基线函数能不能降低方差不容易在理论上判别,往往需要通过实践获知。

2.基线函数应当是可以得到的。例如我们不知道最优价值函数,但是可以得到最优价值函数的估计。价值函数的估计也可以随着迭代过程更新。

一个能有效降低方差的基线是状态价值函数的估计,如Reinfoece_with_baseline算法所示。

3 Reinfoece_with_baseline算法伪代码 深度强化学习-带基线的策略梯度算法原理

 4 最佳基线的确定

接下来,我们来分析什么样的基线函数能最大程度地减小方差。根据方差与期望之间的联系:

D\left ( X \right )=E\left ( X^{2} \right ) - \left [E\left ( X \right ) \right ]^{2}

E\left [ \gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right ) \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]的方差为

E\left [\left [ \gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right ) \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2} \right ]-\left [ E\left [ \gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right ) \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]\right ]^{2}

上式关于B\left ( S_{t} \right )求偏导,得到

E\left [ -2\gamma ^{t}\left ( G_{t}-B\left ( S_{t} \right ) \right )\left [ \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2} \right ]

 其中求导时存在,

\frac{\partial }{\partial B\left ( S_{t} \right )}E\left [ \gamma ^{t}\left ( G_{t} -B\left ( S_{t} \right )\right ) \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right )\right ]

=\frac{\partial }{\partial B\left ( S_{t} \right )}E\left [ \gamma ^{t}G_{t}\triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]

=0

令上面求得的偏导数为0,并假设B\left ( S_{t} \right )\left [ \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2}相互独立

E\left [B\left ( S_{t} \right )\left [ \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2} \right ]=E\left [ B\left ( S_{t} \right )\right ]E\left [\left [ \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2} \right ]

可知

E\left [ B\left ( S_{t} \right ) \right ]=\frac{E\left [ G_{t}\left [ \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2} \right ]}{E\left [ \left [ \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2} \right ]}

这意味着,最佳的基线函数应当接近回报G_{t}以梯度\left [ \triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right ) \right ]^{2}为权重加权平均的结果。不过,由于梯度\triangledown ln\pi _{\theta }\left ( A_{t}\mid S_{t} \right )并不会预先知道,所以实际应用时无法使用这样的基线函数。

版权声明:本文为博主 indigo love原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接: https://blog.csdn.net/weixin_46133643/article/details/122441656

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
0
opencv-python学习笔记(1)图像基本操作
上一篇 2022年1月23日 下午6:16
VS2017配置OpenCV教程(图文详解)
下一篇 2022年1月23日 下午6:22

相关推荐

  • 【深度学习】预训练语言模型-BERT 2023年11月3日
  • 【剑指offer|图解|数组】寻找文件副本 + 螺旋遍历二维数组 2023年12月14日
  • 【python量化】多种Transformer模型用于股价预测(Autoformer, FEDformer和PatchTST等) 2024年5月6日
  • Pytorch+CUDA安装方法步骤 2023年3月11日
  • 海上明月共潮生【InsCode Stable Diffusion 美图活动一期】 2023年12月26日
  • 用Python求方程根 2023年11月6日
  • yolov7的export.py转换时显存报错 If reserved memory is >> allocated memory try setting max_split_size_mb to a 2023年7月11日
  • 如何使用ChatGPT赚钱和变现的16种方法和途径:创意和机会的探索 2023年4月15日
  • 语音转换之CycleGan-VC2:原理与实战 2023年2月25日
  • 百度文心一言对标 ChatGPT,你怎么看? 2023年3月22日
  • 【leetcode/力扣】176.第二高的薪水 2023年12月27日
  • bevfusion单显卡训练/测试 2023年8月3日
  • 《Deep Contextualized Entity Representations with Entity-aware Self-attention》论文 2022年5月9日
  • 大数据毕设选题 – 深度学习火焰识别检测系统(python YOLO) 2023年3月8日
  • 开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用 2023年12月20日
  • 深度学习论文精读[7]:nnUNet 2023年2月25日

赞助商

深圳SEO优化公司赤峰seo推荐石家庄网站优化软件多少钱大同网站推广推荐菏泽网站优化按天扣费多少钱长葛模板制作公司甘孜SEO按天计费多少钱潍坊网站优化按天扣费德州网站搜索优化推荐绍兴网站改版公司中卫外贸网站建设多少钱坪地网站定制多少钱南通百度网站优化排名多少钱和田网站优化排名推荐白山企业网站设计公司福州网站设计多少钱晋中网站制作哪家好长葛网站优化推广多少钱辽源网站设计模板推荐武威网站搭建公司济南网站优化排名德州企业网站制作公司天水建网站多少钱桐城模板制作拉萨模板推广邵阳网络推广价格定西关键词按天扣费报价黄冈网站改版哪家好淮安英文网站建设价格遵义网站推广系统报价湘西企业网站建设哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化