View Code? Open in Web Editor
NEW
Deep Reinforcement Learning
License: Other
drl's Introduction
Deep Reinforcement Learning
Overview.
TD Learning.
Advanced Topics on Value-Based Learning.
Policy Gradient with Baseline.
Advanced Topics on Policy-Based Learning.
Dealing with Continuous Action Space.
Multi-Agent Reinforcement Learning.
Imitation Learning.
drl's People
Contributors
drl's Issues
SARSA 训练流程:
4. 根据当前策略做抽样: a˜t+1 ∼ πnow( · j st+1)。注意, a˜t+1 只是假想的动作,智能体
不予执行
看其他资料
SARSA算法在本次迭代后,会用 a˜t+1 更新 a(也就是说下一步一定会在s˜t+1 执行a˜t+1):
s = s˜t+1
a = a˜t+1
Page 6: "熵(entropy)是交叉熵的一种特例:... ln q_j”,应为“ln p_j"。
老师好,6.3 节对决网络(Dueling Network)好像没有对 Dueling DQN “为什么要把 Q 值函数拆开” 的解释,所以我最开始看完了这一节后依然有点困惑,所以希望可以加一些这部分的解释。(当然如果是我遗漏了这一部分的话,那非常抱歉 😂)
我目前对 Dueling DQN 的粗浅的理解是,它拆 Q 值函数是为了把状态和动作分开考虑,从而能够判断 Q 值高到底是因为状态好所以随便什么动作都行,还是真的是因为动作好。另一方面,如果有很多状态都不受动作影响,那 Dueling DQN 能学习的更快一些。(不知道这个理解有没有啥问题)
最后感谢老师,辛苦了。
知识图谱现在也是深度学习很火热的一个方向,不知道老师能否在在书中关于这个领域结合强化学习介绍一些应用的实例呢,谢谢!
王老师您好。非常感谢您的视频,从你的视频收获了很多。
第七章的视频打开之后显示:这是私享视频。观看不了。
如果有了书签目录,我们阅读起来非常方便。能否给书籍增加书签目录?
您可以开通一个赞助的支付或微信账号,我是愿意付费的。谢谢!!
感谢王先生难能可贵的分享!
王老师,您好。您能否抽空再出几期深度强化学习的视频,之前的视频看完后对我帮助很大,感谢老师。祝您生活愉快!
更新参数推导里面漏了TD误差
在 10.3.3 DPG 的高估问题 小节下面的第一行,"我们讨过 DQN 的高估问题" 中漏了 "论"
你好,41页最底部的参数更新是不是少了 $(\hat q - y)$
4.3.1 算法推导的有关Ut的公式,是我理解的有问题吗?后半部分k = t+1的时候,gamma的指数是t+1-t = 1, 但前面Sum符号外还有个gamma,那就是gamma^2了,但是本来应该只是gamma的吧?
感觉王老师的书特别好,但是只看总感觉少了点东西,要是每个章节都配有代码解释就好了。看了几个别人的demo,感觉和书中的讲解有的地方不一样,希望王老师能提供一些书中知识点的代码。感觉配套下来学习效果会更好
博主的视频讲的太好了,想分享一下身边的同学,但同学不能翻墙,能否同步一份到b站,感激不尽!
请文老师是否有习题答案,或者哪位同学可以分享一下自己的答案。
这里面相当于用theta_now产生的轨迹来估计Q_phi(s,a)
是不是有点问题?
Q_phi的参数是theta还是theta_now呢?
感觉有点不太清楚。
thanks
如题: 请问如何cite这本书
由于大量参考了王老师的youtube视频和这本书,所以希望能够放在我的引用里
Hi professor Wang! I have a question about TD algorithm. You said y hat is a function of parameter w, but TD ignores it and sees it as a constant. What if I don't do like that? Can I just use initial y hat? (Because I think it's still not complex to calculate gradient in that case.)
在引理7.2的证明中,
$$Q_{\pi}(s,a)=E_{S’\ \sim \ p\ (\ \dot\ |\ s\ ;\ \theta)}[R(s,a,S')+\gamma\ \dot \ V_{\pi}(s') ]$$
此处 $V_{\pi}(S')$ 应该仍然是 $S'$ 的函数,此处在数学上并未是描述某个具体状态,我认为此处或许出了错误?
应该为,
$$Q_{\pi}(s,a)=E_{S’\ \sim \ p\ (\ \dot\ |\ s\ ;\ \theta)}[R(s,a,S')+\gamma\ \dot \ V_{\pi}(S') ]$$
GitHub上的markdown我不是很熟悉,见谅。
正文第四页最后一行中“点落在园内”,应为“点落在圆内”。
在证明递归公式时,公式(7.3)左边是否应该是 $\boldsymbol{V_\pi (s)}$ ,而不是 $\boldsymbol{Q_\pi (s, a)}$ 。但是这样的话与下面又不符,希望老师能够解答一下:dizzy_face:
p101 题3答案B文字错误,应为“TD误差的绝对值”
标出的rt是不是应该为rj呢?
认为在这里使用「平方差」似乎不妥,“平方差”在中文数学里一般意思是“平方的差”,而非“差的平方”。使用“误差平方”或许更合适,或其他的术语。
感谢如此精彩的RL中文材料。
在书中p.p. 36,第一段第二行,RL中的OpenAI Gym 应该和DL中 的ImageNet做对照(而不是RL的ImageNet)。
王老师您好,第7章的视频链接点击显示为"私享视频",希望能公开一下,非常感谢。
P56.pdf
您好,请问DRL书本P48页,关于Q学习算法的表格形式的更新公式,红框内的两个更新公式不一样,下面一个是否有误?
王老师您好,等号右边的S, A是否应该小写呢,等号左边是抽样得到的s, a
人工智能确实是现在很热的方向和研究领域,尤其又是当下的,强化学习。
搜索一番,国内前几所高校,几乎还没有外传的并且公开的有关强化学习的较完整的书籍或者教材。
感谢王树森先生的书籍稿件和视频资料,并分享在GitHub和YouTube上,希望能够发扬并保持下去。
国内几大互联网巨头,没有吸取到外面精华和精髓,任何访问,要么就是一大堆广告,要么就是无节制地索取用户信息,要么就是流量很贵。
稿件前9章以及视频资料有过较详细的阅读和观看,有如下几点体会。
1.概率论数学知识在强化学习中的比重特别大和重要,我个人体会可能要占到70%。
2.这虽然不是主要讲数学的书,但是核心支撑就是概率论数学基础。
3.概率的数学推导,大部分就是数学建模和不断简化(不是优化)。但是王先生好像很少提到数学建模,好像还想避开数学建模字眼,深怕提及了数学建模,怕吓跑读者。当然在视频中,王先生自己也说到“不太严谨”。
4.贝尔曼方程就是一个数学模型,Q函数和V值函数在做时序差分TD算法的时候,能不能不用这个贝尔曼方程?。跨不过去。概率数学、数学建模是基石。
5.策略函数梯度公式,核心又是数学。想躲数学吗?
6.概率论中有【期望】,强化学习的Q值和V值也有【期望】,这两个【期望】好像不是同一回事吧?。概率论中期望,是说当样本越来越多,然后收敛,最后趋于均值。强化学习中的Q值和V值是希望最好值,要找max值。这是要借用还是混用,还是别人这么用,姑且我也先这么用?。
7.【全书或者GitHub没有代码,没有案例?.】有了代码我们是想看,你或者你的团队是怎么衔接的,怎么用到实处。所以烦请你,后面有机会一定要补充和更新代码,锦上添花。不附加实际案例和代码,这就是一本即不像讲数学的书,又不像讲算法和代码的书,几不像。
8.全书或者全稿以及视频讲义:图文并茂、思路清晰、简洁清爽、多色字体呈现,便于读者阅读和理解。知识的呈现,本就应该多元化表达。希望以后继续保持和发扬这种呈现风格。
尊敬的王老师,您好:
请问第70页中的公式是否默认gamma为1呢?如果是的话可否加上说明,更严谨一些。
建议 "逻辑斯蒂回归" 变为 "逻辑回归" 可能会更简洁一点。
第 25 页的 "序贯" 一词可能是 "序列" 或 "时序" 的笔误。
请教,对于多Agent,按既定次序采取动作,而不是同时采取动作的问题,应如何建模,是否有推荐的论文?多谢
读过之后感觉这部分内容跟标题不够契合,不管是概率论还是深度学习都是涵盖内容比较广的主题。哪怕仅仅是综述,内容也是比较单薄的(对标deep learning)。如果这部分内容的目的是为无基础读者罗列知识点的话,内容不够全面,起不到指引的作用;如果目的是为有一定基础的读者进行知识点的总结与升华的话,内容又过于简单,不够深刻。仅供参考。
另,中文强化学习书籍真的很匮乏,您愿意付出时间精力来做这件事情,很令人敬佩。祝您的书稿早日面世。
第7章推导策略网络目标函数时,不太明白为何s与S,a与A之间可以直接相互转化,有人可以从实际含义或者数学推导上解释一下嘛?
老师好,附录 A:贝尔曼方程里这两个地方似乎遗漏了右括号:
然后感谢老师的学习资源,辛苦了。
王老师您好,您的书写的非常棒,给人一种醍醐灌顶的感觉!
希望能够增加PPO和SAC的内容,对于我们强化学习初学者真的是难得的学习资料!
王老师,您好。目前拜读了您的《DRL》一书前9章,发现第9章中一个笔误在最新版中仍然存在:
此外,目前已读的部分,各种算法原理及数学推导都好理解,只是6.2.2关于“最大化导致高估”说明中提到的下图中的公式难以理解,而且也没有查找到相关证明资料:
P47 第二行最后一个 几号后边的一句话。应为 Q 学习的目的 是……
王老师您好,本书P35 提到Model Free 和 Model Based,可否描述一下这两者的区别呢?
考虑到部分读着不知道这个概念。
(仅此建议)