LEGACY DATASET
These charts come from the kube-sre-gym-style heuristic + early notebook runs — the 11 hand-curated tasks in
rl-agent/scenarios/{easy,medium,hard}/*.json, recorded into
rl-agent/checkpoints/<run>/metrics.jsonl and
colab/logs/reward_breakdown_history.jsonl. They do not include the 381-task PPO Kaggle run.
Training progress
Run: ppo-v2-heuristic · mode: heuristic · 33 updates recorded.
Reward & grade
Policy / value loss
Entropy
Mitigation / root-cause rate
Raw metrics (last 25 updates)
[
{
"update": 8,
"mode": "heuristic",
"mean_reward": 1.205,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.615862647765074,
"value_loss": 0.3443737680000001,
"entropy": 1.3268408625781245,
"tier": "expert",
"ts": 1776903064.9246995
},
{
"update": 9,
"mode": "heuristic",
"mean_reward": 0.9975,
"mean_grade": 0.65,
"mitigation_rate": 1.0,
"root_cause_rate": 0.0,
"policy_loss": 0.5665936359438681,
"value_loss": 0.3099363912000001,
"entropy": 1.2604988194492182,
"tier": "expert",
"ts": 1776903064.9927347
},
{
"update": 10,
"mode": "heuristic",
"mean_reward": 1.2308333333333332,
"mean_grade": 0.8166666666666668,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"policy_loss": 0.5212661450683588,
"value_loss": 0.2789427520800001,
"entropy": 1.1974738784767573,
"tier": "expert",
"ts": 1776903065.0796993
},
{
"update": 11,
"mode": "heuristic",
"mean_reward": 1.185,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.47956485346289013,
"value_loss": 0.25104847687200005,
"entropy": 1.1376001845529193,
"tier": "expert",
"ts": 1776903065.150462
},
{
"update": 12,
"mode": "heuristic",
"mean_reward": 1.1975,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.4411996651858589,
"value_loss": 0.2259436291848001,
"entropy": 1.0807201753252733,
"tier": "expert",
"ts": 1776903065.2238748
},
{
"update": 13,
"mode": "heuristic",
"mean_reward": 1.1308333333333334,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.40590369197099024,
"value_loss": 0.20334926626632008,
"entropy": 1.0266841665590096,
"tier": "expert",
"ts": 1776903065.2995095
},
{
"update": 14,
"mode": "heuristic",
"mean_reward": 1.2975,
"mean_grade": 0.8166666666666668,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"policy_loss": 0.37343139661331104,
"value_loss": 0.18301433963968808,
"entropy": 0.9753499582310591,
"tier": "expert",
"ts": 1776903065.3681138
},
{
"update": 15,
"mode": "heuristic",
"mean_reward": 1.185,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.3435568848842462,
"value_loss": 0.16471290567571928,
"entropy": 0.9265824603195061,
"tier": "expert",
"ts": 1776903065.4366648
},
{
"update": 16,
"mode": "heuristic",
"mean_reward": 0.9975,
"mean_grade": 0.65,
"mitigation_rate": 1.0,
"root_cause_rate": 0.0,
"policy_loss": 0.3160723340935065,
"value_loss": 0.14824161510814735,
"entropy": 0.8802533373035307,
"tier": "expert",
"ts": 1776903065.510438
},
{
"update": 17,
"mode": "heuristic",
"mean_reward": 1.2641666666666667,
"mean_grade": 0.8166666666666668,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"policy_loss": 0.29078654736602594,
"value_loss": 0.13341745359733262,
"entropy": 0.8362406704383542,
"tier": "expert",
"ts": 1776903065.5769446
},
{
"update": 18,
"mode": "heuristic",
"mean_reward": 1.1441666666666668,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.2675236235767439,
"value_loss": 0.12007570823759935,
"entropy": 0.7944286369164364,
"tier": "expert",
"ts": 1776903065.6460185
},
{
"update": 19,
"mode": "heuristic",
"mean_reward": 1.205,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.24612173369060442,
"value_loss": 0.10806813741383943,
"entropy": 0.7547072050706145,
"tier": "expert",
"ts": 1776903065.7193348
},
{
"update": 20,
"mode": "heuristic",
"mean_reward": 0.9975,
"mean_grade": 0.65,
"mitigation_rate": 1.0,
"root_cause_rate": 0.0,
"policy_loss": 0.22643199499535605,
"value_loss": 0.09726132367245549,
"entropy": 0.7169718448170838,
"tier": "expert",
"ts": 1776903065.786405
},
{
"update": 21,
"mode": "heuristic",
"mean_reward": 1.2308333333333332,
"mean_grade": 0.8166666666666668,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"policy_loss": 0.20831743539572758,
"value_loss": 0.08753519130520994,
"entropy": 0.6811232525762296,
"tier": "expert",
"ts": 1776903065.8502808
},
{
"update": 22,
"mode": "heuristic",
"mean_reward": 1.185,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.1916520405640694,
"value_loss": 0.07878167217468895,
"entropy": 0.647067089947418,
"tier": "expert",
"ts": 1776903065.918286
},
{
"update": 23,
"mode": "heuristic",
"mean_reward": 1.1975,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.17631987731894386,
"value_loss": 0.07090350495722006,
"entropy": 0.6147137354500471,
"tier": "expert",
"ts": 1776903065.9883294
},
{
"update": 24,
"mode": "heuristic",
"mean_reward": 1.1308333333333334,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.16221428713342834,
"value_loss": 0.06381315446149805,
"entropy": 0.5839780486775448,
"tier": "expert",
"ts": 1776903066.0576508
},
{
"update": 25,
"mode": "heuristic",
"mean_reward": 1.2975,
"mean_grade": 0.8166666666666668,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"policy_loss": 0.14923714416275408,
"value_loss": 0.05743183901534824,
"entropy": 0.5547791462436675,
"tier": "expert",
"ts": 1776903066.1226914
},
{
"update": 26,
"mode": "heuristic",
"mean_reward": 1.185,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.13729817262973376,
"value_loss": 0.051688655113813424,
"entropy": 0.5270401889314841,
"tier": "expert",
"ts": 1776903066.1996672
},
{
"update": 27,
"mode": "heuristic",
"mean_reward": 0.9975,
"mean_grade": 0.65,
"mitigation_rate": 1.0,
"root_cause_rate": 0.0,
"policy_loss": 0.12631431881935506,
"value_loss": 0.04651978960243208,
"entropy": 0.5006881794849098,
"tier": "expert",
"ts": 1776903066.2721841
},
{
"update": 28,
"mode": "heuristic",
"mean_reward": 1.2641666666666667,
"mean_grade": 0.8166666666666668,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"policy_loss": 0.11620917331380667,
"value_loss": 0.04186781064218888,
"entropy": 0.4756537705106643,
"tier": "expert",
"ts": 1776903066.3411906
},
{
"update": 29,
"mode": "heuristic",
"mean_reward": 1.1441666666666668,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.10691243944870214,
"value_loss": 0.03768102957796999,
"entropy": 0.4518710819851311,
"tier": "expert",
"ts": 1776903066.406675
},
{
"update": 30,
"mode": "heuristic",
"mean_reward": 1.205,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"policy_loss": 0.09835944429280596,
"value_loss": 0.03391292662017299,
"entropy": 0.42927752788587453,
"tier": "expert",
"ts": 1776903066.4738374
},
{
"update": 31,
"mode": "heuristic",
"mean_reward": 0.9975,
"mean_grade": 0.65,
"mitigation_rate": 1.0,
"root_cause_rate": 0.0,
"policy_loss": 0.0904906887493815,
"value_loss": 0.030521633958155693,
"entropy": 0.4078136514915808,
"tier": "expert",
"ts": 1776903066.541341
},
{
"update": 32,
"mode": "heuristic",
"mean_reward": 1.2308333333333332,
"mean_grade": 0.8166666666666668,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"policy_loss": 0.08325143364943098,
"value_loss": 0.02746947056234012,
"entropy": 0.38742296891700173,
"tier": "expert",
"ts": 1776903066.6034682
}
]