Giter Site home page Giter Site logo

opendilab / ppoxfamily Goto Github PK

View Code? Open in Web Editor NEW
1.7K 15.0 155.0 163.26 MB

PPO x Family DRL Tutorial Course(决策智能入门级公开课:8节课帮你盘清算法理论,理顺代码逻辑,玩转决策AI应用实践 )

Home Page: https://opendilab.github.io/PPOxFamily/

License: Apache License 2.0

Python 100.00%
course decision-intelligence python reinforcement-learning deep-reinforcement-learning

ppoxfamily's Introduction

PPO x Family 决策智能入门公开课

欢迎来到 PPO x Family 系列决策智能入门公开课。该系列将深入理解深度强化学习算法 PPO ,灵活运用一个 PPO 算法解决几乎所有常见的决策智能应用 ,帮助一切对于深度强化学习技术有好奇心的人,轻便且高效地制作应用原型,了解和学习最强大最易用的 PPO Family 。

P.S. 路过记得点个 star stars - ppof ,2022年12月起持续更新中~

News

课程大纲

内容导航

章节(视频课) 算法理论资料 补充资料 习题 代码样例 应用样例
第一章:开启决策AI探索之旅 课程PPT
课程文字稿
微课视频
策略梯度
A2C
TRPO
符号表
QA总结
习题
习题题解
PG算法示例
A2C算法示例
PPO算法示例
应用混剪
第二章:解构复杂动作空间 课程PPT
课程文字稿
重参数化
PPO&DDPG
HyAR
QA总结
习题
习题题解
离散动作示例
连续动作示例
混合动作示例
应用训练代码
火箭回收等
第三章:表征多模态动作空间 课程PPT
课程文字稿
表征学习
PPG
不变性
QA总结
习题
习题题解
编码方法示例
Wrapper示例
计算图示例
应用训练代码
软体机器人等
第四章:解密稀疏奖励空间 课程PPT
课程文字稿
逆强化学习
行为克隆BC
QA总结
习题
习题题解
ICM好奇心奖励
RND好奇心奖励
Pop-Art示例
价值缩放
应用训练代码
自动驾驶等
第五章:探索时序建模 课程PPT 随机性策略
RWKV
Belief MDP
QA总结
习题
习题题解
LSTM示例
GTrXL示例
应用训练代码
记忆型决策
第六章:统筹多智能体 课程PPT HAPPO
ACE
值分解
QA总结
习题
习题题解
IndependentPG
MAPG
MAPPO
[HAPPO]
应用训练代码
多智能体协作
第七章:挖掘黑科技 课程PPT Adv 估计
PPO off 版
Entropy
QA总结
习题
习题题解
GAE
Recompute
梯度裁剪
正交初始化
Dual Clip
Value Clip
应用训练代码
学术基准环境
第八章:突破终极界限 LLM RLHF 语言模型 RL 环境

课程特点

一个算法解决万千应用 视频传送门

算法理论和代码实现一一对应 网站传送门

项目结构

.
├── LICENSE
├── assets                       --> 相关图片素材(转载请注明来源)
├── chapter2_action              --> 课程第二章相关内容
└── chapter1_overview            --> 课程第一章相关内容
    ├── chapter1_manuscript.pdf  --> 课程第一章文字稿(对于PPT的补充说明)
    ├── chapter1_lecture.pdf     --> 课程第一章PPT
    ├── chapter1_qa.pdf          --> 课程第一章答疑文稿
    ├── chapter1_homework.pdf    --> 课程第一章习题作业
    ├── chapter1_hw_solution.pdf   --> 课程第一章习题作业题解
    ├── chapter1_supp_trpo.pdf          --> 课程第一章补充材料(算法理论推导等)
    └── chapter1_demo_code.py    --> 课程第一章相关代码实现

课程答疑和反馈

License

PPOxFamily is released under the Apache 2.0 license.

ppoxfamily's People

Contributors

karroyan avatar kxzxvbk avatar nighood avatar paparazz1 avatar puyuan1996 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ppoxfamily's Issues

Chapter2 Discussion

本 issue 将会追踪和记录各种有关课程第二讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。

最新的 第二讲QA 合集文档(2023.05.24更新)

Chapter4 Discussion

本 issue 将会追踪和记录各种有关课程第四讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。
最新的 第四讲 QA 合集文档(2023.05.24更新)

Chapter3 Discussion

本 issue 将会追踪和记录各种有关课程第三讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。

最新的 第三讲 QA 合集文档(2023.02.20更新)

Chapter2 Application Demo

在本 issue 中,我们会更新所有和课程第二讲相关的应用 demo 素材

训练代码链接

  • 火箭回收(离散动作空间)

    rocket.mp4
  • 无人机姿态控制(连续动作空间)

    drone.mp4
  • 交通信控(多维离散动作空间)

    cityflow_tiny.mp4
  • 导航控制(混合动作空间:参数化动作空间)

    out.mp4

Chapter6 Application Demo

在本 issue 中,我们会更新所有和课程第六讲相关的应用 demo 素材及训练日志(持续更新中)

  • Multi Particle Environment (MPE) 多智能体协作入门环境 中文参考文档

    mpe.mp4
  • SMAC 《星际争霸2》微观操作多智能体协作环境 中文参考文档

    mmm2.mp4
  • GFootball 谷歌足球多智能体协作环境 中文参考文档

    football_avr.mp4
  • Multi-Agent MuJoCo 多智能体机器人控制协作环境
    (TBD)

Chapter1 Discussion

本 issue 将会追踪和记录各种有关课程第一讲的问题和延伸思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息

最新的 QA 合集文档(2022.12.22更新)

Chapter7 Application Demo

在本 issue 中,我们会更新所有和课程第七讲相关的应用 demo 素材及训练日志(持续更新中)

Chapter5 Discussion

本 issue 将会追踪和记录各种有关课程第五讲的问题和延伸思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。
最新的 第五讲 QA 合集文档(2023.05.05更新)

Chapter6 Discussion

本 issue 将会追踪和记录各种有关课程第六讲的问题和延伸思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。
最新的 第六讲 QA 合集文档(2023.05.31更新)

The flaw in chapter1_supp_trpo

Given two functions f_1 and f_2, f_1(x_0) = f_2(x_0) and f'_1(x_0) = f'_2(x_0), there may do not exist a ball B around x_0 such that: \forall x_1, x_2 \in B, f_1(x_2) >= f_1(x_1) \rightarrow f_2(x_2) >= f_1(x_1).
For instance, f_1(x) = x^2, f_2(x) = -1 * x^2.

We may need more properties for this claim.

Chapter4 Application Demo

在本 issue 中,我们会更新所有和课程第四讲相关的应用 demo 素材及训练日志(持续更新中)

  • minigrid 迷宫(奖励的稀疏性)中文参考文档

    • fourroom

      foorroom.mp4
    • doorkey

      doorkey.mp4
  • metadrive 自动驾驶 (奖励的多尺度变化)中文参考文档

    • fail cases

      metadrive_fail.mp4
    • success cases

      metadrive_demonstration.mp4

Chapter7 Discussion

本 issue 将会追踪和记录各种有关课程第七讲的问题和延伸思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息

Chapter3 Application Demo

在本 issue 中,我们会更新所有和课程第三讲相关的应用 demo 素材及训练日志(持续更新中)

  • 软体机器人(向量观察空间)

    evogym_early.mp4
  • 超级马里奥(图片观察空间)

    Level 1-1

    mario_trained_coin.mp4

    Level 1-4

    1-4.mp4
  • 羊了个羊(复杂结构化观察空间)

    default.mp4
  • 大鱼吃小鱼(通用训练方法)

    bigfish_cmp.mp4

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.