LEGACY DATASET
These charts come from the kube-sre-gym-style heuristic + early notebook runs — the 11 hand-curated tasks in
rl-agent/scenarios/{easy,medium,hard}/*.json, recorded into
rl-agent/checkpoints/<run>/metrics.jsonl and
colab/logs/reward_breakdown_history.jsonl. They do not include the 381-task PPO Kaggle run.
Training progress
Run: ppo-v3-hybrid-ollama-bedrock · mode: ppo-v3-hybrid-ollama-bedrock · 12 updates recorded.
Reward & grade
Policy / value loss
Entropy
Mitigation / root-cause rate
Raw metrics (last 25 updates)
[
{
"update": 0,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.2591666666666665,
"mean_grade": 0.5666666666666668,
"mitigation_rate": 0.3333333333333333,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.30785886918088506,
"grade_std": 0.14433756729740646,
"policy_loss": 1.1,
"value_loss": 0.7,
"entropy": 1.9,
"tier": "advanced",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905868.6551898
},
{
"update": 1,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.439166666666667,
"mean_grade": 0.65,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.4963953397578723,
"grade_std": 0.25,
"policy_loss": 1.0230000000000001,
"value_loss": 0.637,
"entropy": 1.8239999999999998,
"tier": "advanced",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905874.5381618
},
{
"update": 2,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.1675,
"mean_grade": 0.6166666666666667,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.369010501205589,
"grade_std": 0.22546248764114468,
"policy_loss": 0.9513900000000002,
"value_loss": 0.57967,
"entropy": 1.75104,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905880.297513
},
{
"update": 3,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.5033333333333332,
"mean_grade": 0.75,
"mitigation_rate": 1.0,
"root_cause_rate": 0.6666666666666666,
"reward_std": 0.2857154761879961,
"grade_std": 0.13228756555322954,
"policy_loss": 0.8847927000000002,
"value_loss": 0.5274997,
"entropy": 1.6809983999999996,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905886.5193324
},
{
"update": 4,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.2658333333333331,
"mean_grade": 0.6833333333333332,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.2641771817045017,
"grade_std": 0.14433756729740646,
"policy_loss": 0.8228572110000003,
"value_loss": 0.48002472700000004,
"entropy": 1.6137584639999996,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905892.7164426
},
{
"update": 5,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.3025,
"mean_grade": 0.5666666666666668,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.0,
"reward_std": 0.3214323412477345,
"grade_std": 0.14433756729740646,
"policy_loss": 0.7652572062300003,
"value_loss": 0.4368225015700001,
"entropy": 1.5492081254399996,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905901.9404485
},
{
"update": 6,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.5458333333333334,
"mean_grade": 0.7333333333333334,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.6666666666666666,
"reward_std": 0.43917773547088357,
"grade_std": 0.2466441431158124,
"policy_loss": 0.7116892017939003,
"value_loss": 0.3975084764287001,
"entropy": 1.4872398004223997,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905910.422652
},
{
"update": 7,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.1908333333333332,
"mean_grade": 0.5499999999999999,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.10995264132040364,
"grade_std": 0.08660254037844388,
"policy_loss": 0.6618709576683274,
"value_loss": 0.36173271355011705,
"entropy": 1.4277502084055036,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905918.3522766
},
{
"update": 8,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.1808333333333334,
"mean_grade": 0.6,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.1394259062489225,
"grade_std": 0.050000000000000044,
"policy_loss": 0.6155399906315444,
"value_loss": 0.3291767693306065,
"entropy": 1.3706402000692834,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905927.1655447
},
{
"update": 9,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.2966666666666666,
"mean_grade": 0.5333333333333333,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.0,
"reward_std": 0.2608799212920253,
"grade_std": 0.11547005383792514,
"policy_loss": 0.5724521912873364,
"value_loss": 0.29955086009085197,
"entropy": 1.315814592066512,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905934.244992
},
{
"update": 10,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.3991666666666667,
"mean_grade": 0.7000000000000001,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.6666666666666666,
"reward_std": 0.42609662440969104,
"grade_std": 0.17320508075688776,
"policy_loss": 0.5323805378972228,
"value_loss": 0.2725912826826753,
"entropy": 1.2631820083838514,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905941.6399052
},
{
"update": 11,
"mode": "hybrid-ollama-bedrock",
"mean_reward": 1.3141666666666667,
"mean_grade": 0.6166666666666667,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.08519585279421368,
"grade_std": 0.028867513459481284,
"policy_loss": 0.49511390024441726,
"value_loss": 0.24805806724123453,
"entropy": 1.2126547280484974,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "heuristic",
"ts": 1776905949.0601954
}
]