PPO training curves

Every PPO update from every shard. Source: kaggle ran notebooks/shard {1,2,3}/training_kaggle{N}.json.

Updates / shard

60

Rollouts / update

3

Max steps / episode

12

Total transitions

6480

Mean reward

PPO loss

KL divergence

Value error

Policy loss

Wall-clock per update (s)