wangshusen / drl Goto Github PK

View Code? Open in Web Editor NEW

3.1K 42.0 561.0 196.41 MB

Deep Reinforcement Learning

License: Other

drl's Introduction

Deep Reinforcement Learning

Overview.
- Reinforcement Learning [slides] [lecture note] [Video (in Chinese)].
- Value-Based Learning [slides] [Video (in Chinese)].
- Policy-Based Learning [slides] [Video (in Chinese)].
- Actor-Critic Methods [slides] [Video (in Chinese)].
- AlphaGo [slides] [Video (in Chinese)].
TD Learning.
- Sarsa [slides] [Video (in Chinese)].
- Q-learning [slides] [Video (in Chinese)].
- Multi-Step TD Target [slides] [Video (in Chinese)].
Advanced Topics on Value-Based Learning.
- Experience Replay (ER) & Prioritized ER [slides] [Video (in Chinese)].
- Overestimation, Target Network, & Double DQN [slides] [Video (in Chinese)].
- Dueling Networks [slides] [Video (in Chinese)].
Policy Gradient with Baseline.
- Policy Gradient with Baseline [slides] [Video (in Chinese)].
- REINFORCE with Baseline [slides] [Video (in Chinese)].
- Advantage Actor-Critic (A2C) [slides] [Video (in Chinese)].
- REINFORCE versus A2C [slides] [Video (in Chinese)].
Advanced Topics on Policy-Based Learning.
- Trust-Region Policy Optimization (TRPO) [slides] [Video (in Chinese)].
- Partial Observation and RNNs.
Dealing with Continuous Action Space.
- Discrete versus Continuous Control [slides] [Video (in Chinese)].
- Deterministic Policy Gradient (DPG) for Continuous Control [slides] [Video (in Chinese)].
- Stochastic Policy Gradient for Continuous Control [slides] [Video (in Chinese)].
Multi-Agent Reinforcement Learning.
- Basics and Challenges [slides] [Video (in Chinese)].
- Centralized VS Decentralized [slides] [Video (in Chinese)].
Imitation Learning.
- Inverse Reinforcement Learning.
- Generative Adversarial Imitation Learning (GAIL).

drl's People

Contributors

Stargazers

Watchers

Forkers

yiyisf w0lker zhangtjtongxue jian-yin-shine coder190323 supercatex se2ai reyna168 viansummer archer-y nebulabiu yanhuazhang516 songhappy rovedream liuluyeah yanghaocsg kuning19901 lilykissme giantjc bingai haoink tanxiangtj mason0629 gaosihua chang860605 bamboopu allenpu yangjingbo111 jiamim bigfreecoder chao5645 chenwenjia1991 asi-sx buaaguotong myotheone songkaisong yijiangwen-1991 jding0 kreattang liepill jason-lee-lxx ur0924 skychan chaxuanzhu bblwg2020 xiaoyuyang0901 chizi15 ihaveusernam drzhoukarl lighting-zhu robotsl sherlockjian wdeng wangquanzuin taylorcoders jumbokh rgib37190 maogeng liujiashuai shijie-xu sunnycd qinjt ericlee523 wisgon shenliao hardlygo airicky zr1048028670 sui6662012 quanthao aiyuyun2015 cylouiskoo freeclouds guzonghua yanyu96 wangshuo1994 ketang666 goomoo99 learning-group1 ianchen88 yangjunting100 binbinmeng roboticsandcloud evanzai sanwan lixk28 troyzhangfawang jsago pikachuzhao hellozhenqian tzq2doc gbll dogballlee banana16314 jshang-0 axl-zhang lystarmynzt zeroada vbkbmqj windzhougithub

drl's Issues

请问如何cite这本书呢？

如题：请问如何cite这本书

由于大量参考了王老师的youtube视频和这本书，所以希望能够放在我的引用里

跪求老师更新一节PPO的讲解视频

王老师，您好。您能否抽空再出几期深度强化学习的视频，之前的视频看完后对我帮助很大，感谢老师。祝您生活愉快！

10.3.3 小节漏字

在 10.3.3 DPG 的高估问题 小节下面的第一行，"我们讨过 DQN 的高估问题" 中漏了 "论"

第9章笔误及第6章疑问

王老师，您好。目前拜读了您的《DRL》一书前9章，发现第9章中一个笔误在最新版中仍然存在：

此外，目前已读的部分，各种算法原理及数学推导都好理解，只是6.2.2关于“最大化导致高估”说明中提到的下图中的公式难以理解，而且也没有查找到相关证明资料：

Can you synchronize videos to bilibili

博主的视频讲的太好了，想分享一下身边的同学，但同学不能翻墙，能否同步一份到b站，感激不尽！

7.3.2 节可能的错误

在证明递归公式时，公式(7.3)左边是否应该是 $\boldsymbol{V_\pi (s)}$，而不是 $\boldsymbol{Q_\pi (s, a)}$。但是这样的话与下面又不符，希望老师能够解答一下:dizzy_face:

ImageNet 在深度学习中的应用

感谢如此精彩的RL中文材料。
在书中p.p. 36，第一段第二行，RL中的OpenAI Gym 应该和DL中的ImageNet做对照(而不是RL的ImageNet)。

关于s,S与a,A间的相互转化

第7章推导策略网络目标函数时，不太明白为何s与S，a与A之间可以直接相互转化，有人可以从实际含义或者数学推导上解释一下嘛？

基于强化学习的知识图谱推理

知识图谱现在也是深度学习很火热的一个方向，不知道老师能否在在书中关于这个领域结合强化学习介绍一些应用的实例呢，谢谢！

第五章SARSA算法描述是否有误

SARSA 训练流程：
4. 根据当前策略做抽样： a˜t+1 ∼ πnow( · j st+1)。注意， a˜t+1 只是假想的动作，智能体
不予执行

看其他资料
SARSA算法在本次迭代后，会用 a˜t+1 更新 a（也就是说下一步一定会在s˜t+1 执行a˜t+1）：
s = s˜t+1
a = a˜t+1

强化学习视频中使用的讲义和该 repo 中的 slides 对不上

王老师，您于 https://www.youtube.com/watch?v=vmkRMvhCW5c 中使用的讲义和本 repo 中slides 对不上，可以上传一份相匹配的slides 么。谢谢

Double DQN gamma 参数

尊敬的王老师，您好：
请问第70页中的公式是否默认gamma为1呢？如果是的话可否加上说明，更严谨一些。

4.3.1算法推导的第一个公式

4.3.1 算法推导的有关Ut的公式，是我理解的有问题吗？后半部分k = t+1的时候，gamma的指数是t+1-t = 1, 但前面Sum符号外还有个gamma，那就是gamma^2了，但是本来应该只是gamma的吧？

3.5 添加相关概念

王老师您好，本书P35 提到Model Free 和 Model Based，可否描述一下这两者的区别呢？
考虑到部分读着不知道这个概念。
（仅此建议）

About tabular version TD error

Hi professor, why there is no square for tabular version TD error, but square for neural network version TD error?

https://github.com/wangshusen/DRL/blob/master/Slides/2_TD_1.pdf

阅读反馈

建议 "逻辑斯蒂回归" 变为 "逻辑回归" 可能会更简洁一点。
第 25 页的 "序贯" 一词可能是 "序列" 或 "时序" 的笔误。

More explanations on why Dueling DQN separates Q function

老师好，6.3 节对决网络（Dueling Network）好像没有对 Dueling DQN “为什么要把 Q 值函数拆开” 的解释，所以我最开始看完了这一节后依然有点困惑，所以希望可以加一些这部分的解释。（当然如果是我遗漏了这一部分的话，那非常抱歉 😂）

我目前对 Dueling DQN 的粗浅的理解是，它拆 Q 值函数是为了把状态和动作分开考虑，从而能够判断 Q 值高到底是因为状态好所以随便什么动作都行，还是真的是因为动作好。另一方面，如果有很多状态都不受动作影响，那 Dueling DQN 能学习的更快一些。（不知道这个理解有没有啥问题）

最后感谢老师，辛苦了。

7. Multi-Agent Reinforcement Learning. 视频看不了

王老师您好。非常感谢您的视频，从你的视频收获了很多。
第七章的视频打开之后显示：这是私享视频。观看不了。

TRPO中的一个小问题

这里面相当于用theta_now产生的轨迹来估计Q_phi(s,a)
是不是有点问题？
Q_phi的参数是theta还是theta_now呢？
感觉有点不太清楚。
thanks

建议增加PPO和SAC讲解

王老师您好，您的书写的非常棒，给人一种醍醐灌顶的感觉！

希望能够增加PPO和SAC的内容，对于我们强化学习初学者真的是难得的学习资料！

感谢王先生难能可贵的分享，能否给书籍增加书签目录？

如果有了书签目录，我们阅读起来非常方便。能否给书籍增加书签目录？
您可以开通一个赞助的支付或微信账号，我是愿意付费的。谢谢！！
感谢王先生难能可贵的分享！

在引理7.2的证明中，
$$Q_{\pi}(s,a)=E_{S’\ \sim \ p\ (\ \dot\ |\ s\ ;\ \theta)}[R(s,a,S')+\gamma\ \dot \ V_{\pi}(s') ]$$
此处 $V_{\pi}(S')$ 应该仍然是 $S'$ 的函数，此处在数学上并未是描述某个具体状态，我认为此处或许出了错误？
应该为，
$$Q_{\pi}(s,a)=E_{S’\ \sim \ p\ (\ \dot\ |\ s\ ;\ \theta)}[R(s,a,S')+\gamma\ \dot \ V_{\pi}(S') ]$$
GitHub上的markdown我不是很熟悉，见谅。

github上的DRL.pdf是最新版本吗？

在张志华老师的网站也有下载链接，https://www.math.pku.edu.cn/teachers/zhzhang/
请问是github上的版本更新吗？（比如修正了一些错误）

可能的错误：6.2.1小节--自举导致偏差的传播

更新参数推导里面漏了TD误差

确定策略梯度章节的改进建议

个人感觉这章稍微讲的乱了一点。
特别是这部分，估计Q_phi(s,a)给人的感觉应该是用on policy的样本。
但是下面又提到从经验回放池中采样，特别容易让人误解。
这里面的phi对应的策略到底是什么，不是很清楚。
我觉得确定性策略梯度就是DQN的连续化版本，
https://spinningup.openai.com/en/latest/algorithms/ddpg.html
deepmind这个从这个角度讲比较清楚，供王老师参考。

一个小typo

劝你识相点，给我入驻B站（手动狗头）

Excellent learning materials, please continue to update, thank you!

4.2.1 一术语使用不妥

认为在这里使用「平方差」似乎不妥，“平方差”在中文数学里一般意思是“平方的差”，而非“差的平方”。使用“误差平方”或许更合适，或其他的术语。

第四页有一处错字

正文第四页最后一行中“点落在园内”，应为“点落在圆内”。

Question About P48

P56.pdf

您好，请问DRL书本P48页，关于Q学习算法的表格形式的更新公式，红框内的两个更新公式不一样，下面一个是否有误？

请教，对于多Agent，按既定次序采取动作，而不是同时采取动作的问题，应如何建模，是否有推荐的论文？多谢

4.4 Q 学习算法 P47 落下一个字

P47 第二行最后一个几号后边的一句话。应为 Q 学习的目的是……

有没有代码示例呢？

感觉王老师的书特别好，但是只看总感觉少了点东西，要是每个章节都配有代码解释就好了。看了几个别人的demo,感觉和书中的讲解有的地方不一样，希望王老师能提供一些书中知识点的代码。感觉配套下来学习效果会更好

建议增加值分布强化学习的内容

王老师您好！阅读本书的时候，受益匪浅，可以说是华语版本最好的DRL教材了。在开头的时候，您介绍了DRL中的随机性。我最近看了几篇关于讨论回报中随机性的文章，感觉挺有意思的，所以想分享一下：

https://arxiv.org/abs/1707.06887

https://arxiv.org/abs/1710.10044

https://arxiv.org/abs/1806.06923

https://arxiv.org/abs/1911.02140

https://proceedings.neurips.cc//paper/2020/file/b6f8dc086b2d60c5856e4ff517060392-Paper.pdf

https://arxiv.org/abs/1902.08102

这个系列的工作的核心idea就是把Bellman方程抽象成Bellman算符，然后用Banach不动点分析算符的收敛性。如果时间和精力允许的话，王老师可以考虑加入这些advanced topic. 如果感觉这个主题不相关的话，就当交流一下吧。

非常感谢！

chapter4: a question about TD

Hi professor Wang! I have a question about TD algorithm. You said y hat is a function of parameter w, but TD ignores it and sees it as a constant. What if I don't do like that? Can I just use initial y hat? (Because I think it's still not complex to calculate gradient in that case.)

对前两章基础部分内容的读后反馈

读过之后感觉这部分内容跟标题不够契合，不管是概率论还是深度学习都是涵盖内容比较广的主题。哪怕仅仅是综述，内容也是比较单薄的（对标deep learning）。如果这部分内容的目的是为无基础读者罗列知识点的话，内容不够全面，起不到指引的作用；如果目的是为有一定基础的读者进行知识点的总结与升华的话，内容又过于简单，不够深刻。仅供参考。
另，中文强化学习书籍真的很匮乏，您愿意付出时间精力来做这件事情，很令人敬佩。祝您的书稿早日面世。

前9章读后感

人工智能确实是现在很热的方向和研究领域，尤其又是当下的，强化学习。
搜索一番，国内前几所高校，几乎还没有外传的并且公开的有关强化学习的较完整的书籍或者教材。
感谢王树森先生的书籍稿件和视频资料，并分享在GitHub和YouTube上，希望能够发扬并保持下去。
国内几大互联网巨头，没有吸取到外面精华和精髓，任何访问，要么就是一大堆广告，要么就是无节制地索取用户信息，要么就是流量很贵。
稿件前9章以及视频资料有过较详细的阅读和观看，有如下几点体会。
1.概率论数学知识在强化学习中的比重特别大和重要，我个人体会可能要占到70%。
2.这虽然不是主要讲数学的书，但是核心支撑就是概率论数学基础。
3.概率的数学推导，大部分就是数学建模和不断简化（不是优化）。但是王先生好像很少提到数学建模，好像还想避开数学建模字眼，深怕提及了数学建模，怕吓跑读者。当然在视频中，王先生自己也说到“不太严谨”。
4.贝尔曼方程就是一个数学模型，Q函数和V值函数在做时序差分TD算法的时候，能不能不用这个贝尔曼方程？。跨不过去。概率数学、数学建模是基石。
5.策略函数梯度公式，核心又是数学。想躲数学吗？
6.概率论中有【期望】，强化学习的Q值和V值也有【期望】，这两个【期望】好像不是同一回事吧？。概率论中期望，是说当样本越来越多，然后收敛，最后趋于均值。强化学习中的Q值和V值是希望最好值，要找max值。这是要借用还是混用，还是别人这么用，姑且我也先这么用？。
7.【全书或者GitHub没有代码，没有案例?.】有了代码我们是想看，你或者你的团队是怎么衔接的，怎么用到实处。所以烦请你，后面有机会一定要补充和更新代码，锦上添花。不附加实际案例和代码，这就是一本即不像讲数学的书，又不像讲算法和代码的书，几不像。
8.全书或者全稿以及视频讲义：图文并茂、思路清晰、简洁清爽、多色字体呈现，便于读者阅读和理解。知识的呈现，本就应该多元化表达。希望以后继续保持和发扬这种呈现风格。

wangshusen / drl Goto Github PK

drl's Introduction

Deep Reinforcement Learning

drl's People

Contributors

Stargazers

Watchers

Forkers

drl's Issues

Recommend Projects

Recommend Topics

Recommend Org