LEGACY DATASET
These charts come from the kube-sre-gym-style heuristic + early notebook runs — the 11 hand-curated tasks in rl-agent/scenarios/{easy,medium,hard}/*.json, recorded into rl-agent/checkpoints/<run>/metrics.jsonl and colab/logs/reward_breakdown_history.jsonl. They do not include the 381-task PPO Kaggle run.

Training progress

Run: ppo-v3-hybrid-ollama-bedrock · mode: ppo-v3-hybrid-ollama-bedrock · 12 updates recorded.
ppo-v2-heuristic ppo-v3-hybrid-ollama-bedrock ppo-v4-hybrid-ollama-groq

Reward & grade

Policy / value loss

Entropy

Mitigation / root-cause rate

Raw metrics (last 25 updates)

[
  {
    "update": 0,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.2591666666666665,
    "mean_grade": 0.5666666666666668,
    "mitigation_rate": 0.3333333333333333,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.30785886918088506,
    "grade_std": 0.14433756729740646,
    "policy_loss": 1.1,
    "value_loss": 0.7,
    "entropy": 1.9,
    "tier": "advanced",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905868.6551898
  },
  {
    "update": 1,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.439166666666667,
    "mean_grade": 0.65,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.4963953397578723,
    "grade_std": 0.25,
    "policy_loss": 1.0230000000000001,
    "value_loss": 0.637,
    "entropy": 1.8239999999999998,
    "tier": "advanced",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905874.5381618
  },
  {
    "update": 2,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.1675,
    "mean_grade": 0.6166666666666667,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.369010501205589,
    "grade_std": 0.22546248764114468,
    "policy_loss": 0.9513900000000002,
    "value_loss": 0.57967,
    "entropy": 1.75104,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905880.297513
  },
  {
    "update": 3,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.5033333333333332,
    "mean_grade": 0.75,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.6666666666666666,
    "reward_std": 0.2857154761879961,
    "grade_std": 0.13228756555322954,
    "policy_loss": 0.8847927000000002,
    "value_loss": 0.5274997,
    "entropy": 1.6809983999999996,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905886.5193324
  },
  {
    "update": 4,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.2658333333333331,
    "mean_grade": 0.6833333333333332,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.2641771817045017,
    "grade_std": 0.14433756729740646,
    "policy_loss": 0.8228572110000003,
    "value_loss": 0.48002472700000004,
    "entropy": 1.6137584639999996,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905892.7164426
  },
  {
    "update": 5,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.3025,
    "mean_grade": 0.5666666666666668,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.0,
    "reward_std": 0.3214323412477345,
    "grade_std": 0.14433756729740646,
    "policy_loss": 0.7652572062300003,
    "value_loss": 0.4368225015700001,
    "entropy": 1.5492081254399996,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905901.9404485
  },
  {
    "update": 6,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.5458333333333334,
    "mean_grade": 0.7333333333333334,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.6666666666666666,
    "reward_std": 0.43917773547088357,
    "grade_std": 0.2466441431158124,
    "policy_loss": 0.7116892017939003,
    "value_loss": 0.3975084764287001,
    "entropy": 1.4872398004223997,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905910.422652
  },
  {
    "update": 7,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.1908333333333332,
    "mean_grade": 0.5499999999999999,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.10995264132040364,
    "grade_std": 0.08660254037844388,
    "policy_loss": 0.6618709576683274,
    "value_loss": 0.36173271355011705,
    "entropy": 1.4277502084055036,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905918.3522766
  },
  {
    "update": 8,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.1808333333333334,
    "mean_grade": 0.6,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.1394259062489225,
    "grade_std": 0.050000000000000044,
    "policy_loss": 0.6155399906315444,
    "value_loss": 0.3291767693306065,
    "entropy": 1.3706402000692834,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905927.1655447
  },
  {
    "update": 9,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.2966666666666666,
    "mean_grade": 0.5333333333333333,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.0,
    "reward_std": 0.2608799212920253,
    "grade_std": 0.11547005383792514,
    "policy_loss": 0.5724521912873364,
    "value_loss": 0.29955086009085197,
    "entropy": 1.315814592066512,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905934.244992
  },
  {
    "update": 10,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.3991666666666667,
    "mean_grade": 0.7000000000000001,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.6666666666666666,
    "reward_std": 0.42609662440969104,
    "grade_std": 0.17320508075688776,
    "policy_loss": 0.5323805378972228,
    "value_loss": 0.2725912826826753,
    "entropy": 1.2631820083838514,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905941.6399052
  },
  {
    "update": 11,
    "mode": "hybrid-ollama-bedrock",
    "mean_reward": 1.3141666666666667,
    "mean_grade": 0.6166666666666667,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.08519585279421368,
    "grade_std": 0.028867513459481284,
    "policy_loss": 0.49511390024441726,
    "value_loss": 0.24805806724123453,
    "entropy": 1.2126547280484974,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "heuristic",
    "ts": 1776905949.0601954
  }
]