LEGACY DATASET
These charts come from the kube-sre-gym-style heuristic + early notebook runs — the 11 hand-curated tasks in rl-agent/scenarios/{easy,medium,hard}/*.json, recorded into rl-agent/checkpoints/<run>/metrics.jsonl and colab/logs/reward_breakdown_history.jsonl. They do not include the 381-task PPO Kaggle run.

Training progress

Run: ppo-v2-heuristic · mode: heuristic · 33 updates recorded.
ppo-v2-heuristic ppo-v3-hybrid-ollama-bedrock ppo-v4-hybrid-ollama-groq

Reward & grade

Policy / value loss

Entropy

Mitigation / root-cause rate

Raw metrics (last 25 updates)

[
  {
    "update": 8,
    "mode": "heuristic",
    "mean_reward": 1.205,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.615862647765074,
    "value_loss": 0.3443737680000001,
    "entropy": 1.3268408625781245,
    "tier": "expert",
    "ts": 1776903064.9246995
  },
  {
    "update": 9,
    "mode": "heuristic",
    "mean_reward": 0.9975,
    "mean_grade": 0.65,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.0,
    "policy_loss": 0.5665936359438681,
    "value_loss": 0.3099363912000001,
    "entropy": 1.2604988194492182,
    "tier": "expert",
    "ts": 1776903064.9927347
  },
  {
    "update": 10,
    "mode": "heuristic",
    "mean_reward": 1.2308333333333332,
    "mean_grade": 0.8166666666666668,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "policy_loss": 0.5212661450683588,
    "value_loss": 0.2789427520800001,
    "entropy": 1.1974738784767573,
    "tier": "expert",
    "ts": 1776903065.0796993
  },
  {
    "update": 11,
    "mode": "heuristic",
    "mean_reward": 1.185,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.47956485346289013,
    "value_loss": 0.25104847687200005,
    "entropy": 1.1376001845529193,
    "tier": "expert",
    "ts": 1776903065.150462
  },
  {
    "update": 12,
    "mode": "heuristic",
    "mean_reward": 1.1975,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.4411996651858589,
    "value_loss": 0.2259436291848001,
    "entropy": 1.0807201753252733,
    "tier": "expert",
    "ts": 1776903065.2238748
  },
  {
    "update": 13,
    "mode": "heuristic",
    "mean_reward": 1.1308333333333334,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.40590369197099024,
    "value_loss": 0.20334926626632008,
    "entropy": 1.0266841665590096,
    "tier": "expert",
    "ts": 1776903065.2995095
  },
  {
    "update": 14,
    "mode": "heuristic",
    "mean_reward": 1.2975,
    "mean_grade": 0.8166666666666668,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "policy_loss": 0.37343139661331104,
    "value_loss": 0.18301433963968808,
    "entropy": 0.9753499582310591,
    "tier": "expert",
    "ts": 1776903065.3681138
  },
  {
    "update": 15,
    "mode": "heuristic",
    "mean_reward": 1.185,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.3435568848842462,
    "value_loss": 0.16471290567571928,
    "entropy": 0.9265824603195061,
    "tier": "expert",
    "ts": 1776903065.4366648
  },
  {
    "update": 16,
    "mode": "heuristic",
    "mean_reward": 0.9975,
    "mean_grade": 0.65,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.0,
    "policy_loss": 0.3160723340935065,
    "value_loss": 0.14824161510814735,
    "entropy": 0.8802533373035307,
    "tier": "expert",
    "ts": 1776903065.510438
  },
  {
    "update": 17,
    "mode": "heuristic",
    "mean_reward": 1.2641666666666667,
    "mean_grade": 0.8166666666666668,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "policy_loss": 0.29078654736602594,
    "value_loss": 0.13341745359733262,
    "entropy": 0.8362406704383542,
    "tier": "expert",
    "ts": 1776903065.5769446
  },
  {
    "update": 18,
    "mode": "heuristic",
    "mean_reward": 1.1441666666666668,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.2675236235767439,
    "value_loss": 0.12007570823759935,
    "entropy": 0.7944286369164364,
    "tier": "expert",
    "ts": 1776903065.6460185
  },
  {
    "update": 19,
    "mode": "heuristic",
    "mean_reward": 1.205,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.24612173369060442,
    "value_loss": 0.10806813741383943,
    "entropy": 0.7547072050706145,
    "tier": "expert",
    "ts": 1776903065.7193348
  },
  {
    "update": 20,
    "mode": "heuristic",
    "mean_reward": 0.9975,
    "mean_grade": 0.65,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.0,
    "policy_loss": 0.22643199499535605,
    "value_loss": 0.09726132367245549,
    "entropy": 0.7169718448170838,
    "tier": "expert",
    "ts": 1776903065.786405
  },
  {
    "update": 21,
    "mode": "heuristic",
    "mean_reward": 1.2308333333333332,
    "mean_grade": 0.8166666666666668,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "policy_loss": 0.20831743539572758,
    "value_loss": 0.08753519130520994,
    "entropy": 0.6811232525762296,
    "tier": "expert",
    "ts": 1776903065.8502808
  },
  {
    "update": 22,
    "mode": "heuristic",
    "mean_reward": 1.185,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.1916520405640694,
    "value_loss": 0.07878167217468895,
    "entropy": 0.647067089947418,
    "tier": "expert",
    "ts": 1776903065.918286
  },
  {
    "update": 23,
    "mode": "heuristic",
    "mean_reward": 1.1975,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.17631987731894386,
    "value_loss": 0.07090350495722006,
    "entropy": 0.6147137354500471,
    "tier": "expert",
    "ts": 1776903065.9883294
  },
  {
    "update": 24,
    "mode": "heuristic",
    "mean_reward": 1.1308333333333334,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.16221428713342834,
    "value_loss": 0.06381315446149805,
    "entropy": 0.5839780486775448,
    "tier": "expert",
    "ts": 1776903066.0576508
  },
  {
    "update": 25,
    "mode": "heuristic",
    "mean_reward": 1.2975,
    "mean_grade": 0.8166666666666668,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "policy_loss": 0.14923714416275408,
    "value_loss": 0.05743183901534824,
    "entropy": 0.5547791462436675,
    "tier": "expert",
    "ts": 1776903066.1226914
  },
  {
    "update": 26,
    "mode": "heuristic",
    "mean_reward": 1.185,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.13729817262973376,
    "value_loss": 0.051688655113813424,
    "entropy": 0.5270401889314841,
    "tier": "expert",
    "ts": 1776903066.1996672
  },
  {
    "update": 27,
    "mode": "heuristic",
    "mean_reward": 0.9975,
    "mean_grade": 0.65,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.0,
    "policy_loss": 0.12631431881935506,
    "value_loss": 0.04651978960243208,
    "entropy": 0.5006881794849098,
    "tier": "expert",
    "ts": 1776903066.2721841
  },
  {
    "update": 28,
    "mode": "heuristic",
    "mean_reward": 1.2641666666666667,
    "mean_grade": 0.8166666666666668,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "policy_loss": 0.11620917331380667,
    "value_loss": 0.04186781064218888,
    "entropy": 0.4756537705106643,
    "tier": "expert",
    "ts": 1776903066.3411906
  },
  {
    "update": 29,
    "mode": "heuristic",
    "mean_reward": 1.1441666666666668,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.10691243944870214,
    "value_loss": 0.03768102957796999,
    "entropy": 0.4518710819851311,
    "tier": "expert",
    "ts": 1776903066.406675
  },
  {
    "update": 30,
    "mode": "heuristic",
    "mean_reward": 1.205,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "policy_loss": 0.09835944429280596,
    "value_loss": 0.03391292662017299,
    "entropy": 0.42927752788587453,
    "tier": "expert",
    "ts": 1776903066.4738374
  },
  {
    "update": 31,
    "mode": "heuristic",
    "mean_reward": 0.9975,
    "mean_grade": 0.65,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.0,
    "policy_loss": 0.0904906887493815,
    "value_loss": 0.030521633958155693,
    "entropy": 0.4078136514915808,
    "tier": "expert",
    "ts": 1776903066.541341
  },
  {
    "update": 32,
    "mode": "heuristic",
    "mean_reward": 1.2308333333333332,
    "mean_grade": 0.8166666666666668,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "policy_loss": 0.08325143364943098,
    "value_loss": 0.02746947056234012,
    "entropy": 0.38742296891700173,
    "tier": "expert",
    "ts": 1776903066.6034682
  }
]