Command Instruction

For training DQN against the environment baseline:

python train_dqn_against_baseline_mp.py --env SlimeVolley-v0 --hidden-dim 256 --num-envs 5 --max-tag-interval 3000

python train_dqn_against_baseline_mp.py --env Pong-ram-v0 --hidden-dim 256 --num-envs 2 --max-tag-interval 10000

For two agents zero-sum game with Nash DQN:

Test with rps_v1 (gamma is set 0 b.c. it is a repeated stage game):

python nash_dqn.py --env rps_v1 --num-envs 2 --hidden-dim 64 --evaluation-interval 500 --rl-start 1000 --lr 0.0001 --gamma 0

python nash_dqn.py --env SlimeVolley-v0 --hidden-dim 256 --num_envs 5 --max-tag-interval 3000

python nash_dqn.py --env pong_v1 --ram --hidden-dim 32 --num_envs 2 --max-tag-interval 10000

Note:

pong_v1 is the Pong game from PettingZoo for two agents, need to specify --ram for RAM control, otherwise it is image-based control.

python main.py --env SlimeVolley-v0 --hidden-dim 256 --max-frames 20000000 --max-tag-interval 3000

python main.py --env SlimeVolleyNoFrameskip-v0 --hidden-dim 512 --max-frames 30000000 --max-tag-interval 3000

python main.py --env pong_v1 --ram --max-frames 20000000 --max-tag-interval 10000

quantumiracle / pytorch-nfsp Goto Github PK