LEGACY DATASET
These charts come from the kube-sre-gym-style heuristic + early notebook runs — the 11 hand-curated tasks in rl-agent/scenarios/{easy,medium,hard}/*.json, recorded into rl-agent/checkpoints/<run>/metrics.jsonl and colab/logs/reward_breakdown_history.jsonl. They do not include the 381-task PPO Kaggle run.

Training progress

Run: ppo-v4-hybrid-ollama-groq · mode: hybrid-ollama-groq · 12 updates recorded.
ppo-v2-heuristic ppo-v3-hybrid-ollama-bedrock ppo-v4-hybrid-ollama-groq

Reward & grade

Policy / value loss

Entropy

Mitigation / root-cause rate

Raw metrics (last 25 updates)

[
  {
    "update": 0,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 2.0623333333333336,
    "mean_grade": 0.65,
    "mitigation_rate": 1.0,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.31702576130865656,
    "grade_std": 0.1322875655532296,
    "policy_loss": 1.1,
    "value_loss": 0.7,
    "entropy": 1.9,
    "tier": "warmup",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917747.3661118
  },
  {
    "update": 1,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.8716666666666668,
    "mean_grade": 0.6166666666666667,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.6264252416157362,
    "grade_std": 0.22546248764114468,
    "policy_loss": 1.0230000000000001,
    "value_loss": 0.637,
    "entropy": 1.8239999999999998,
    "tier": "warmup",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917760.5548215
  },
  {
    "update": 2,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.6476666666666666,
    "mean_grade": 0.5333333333333333,
    "mitigation_rate": 0.3333333333333333,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.6621301483343992,
    "grade_std": 0.32145502536643183,
    "policy_loss": 0.9513900000000002,
    "value_loss": 0.57967,
    "entropy": 1.75104,
    "tier": "beginner",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917775.420131
  },
  {
    "update": 3,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.8541666666666667,
    "mean_grade": 0.6333333333333333,
    "mitigation_rate": 0.3333333333333333,
    "root_cause_rate": 0.6666666666666666,
    "reward_std": 0.5222481051505437,
    "grade_std": 0.22546248764114468,
    "policy_loss": 0.8847927000000002,
    "value_loss": 0.5274997,
    "entropy": 1.6809983999999996,
    "tier": "beginner",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917788.188611
  },
  {
    "update": 4,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.5176666666666667,
    "mean_grade": 0.5166666666666666,
    "mitigation_rate": 0.3333333333333333,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.36451691776011363,
    "grade_std": 0.1527525231651947,
    "policy_loss": 0.8228572110000003,
    "value_loss": 0.48002472700000004,
    "entropy": 1.6137584639999996,
    "tier": "intermediate",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917800.6299942
  },
  {
    "update": 5,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.5123333333333333,
    "mean_grade": 0.3333333333333333,
    "mitigation_rate": 0.0,
    "root_cause_rate": 0.0,
    "reward_std": 0.1876075247247116,
    "grade_std": 0.028867513459481284,
    "policy_loss": 0.7652572062300003,
    "value_loss": 0.4368225015700001,
    "entropy": 1.5492081254399996,
    "tier": "intermediate",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917811.1109092
  },
  {
    "update": 6,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 2.0743333333333336,
    "mean_grade": 0.6833333333333332,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.6666666666666666,
    "reward_std": 0.5528529038843275,
    "grade_std": 0.2886751345948129,
    "policy_loss": 0.7116892017939003,
    "value_loss": 0.3975084764287001,
    "entropy": 1.4872398004223997,
    "tier": "intermediate",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917821.570856
  },
  {
    "update": 7,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 2.0396666666666667,
    "mean_grade": 0.6333333333333333,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.5505218736193263,
    "grade_std": 0.20207259421636903,
    "policy_loss": 0.6618709576683274,
    "value_loss": 0.36173271355011705,
    "entropy": 1.4277502084055036,
    "tier": "advanced",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917832.4140983
  },
  {
    "update": 8,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.4009999999999998,
    "mean_grade": 0.45,
    "mitigation_rate": 0.0,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.5053263796795096,
    "grade_std": 0.1322875655532296,
    "policy_loss": 0.6155399906315444,
    "value_loss": 0.3291767693306065,
    "entropy": 1.3706402000692834,
    "tier": "advanced",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917842.8114645
  },
  {
    "update": 9,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.5235,
    "mean_grade": 0.48333333333333334,
    "mitigation_rate": 0.3333333333333333,
    "root_cause_rate": 0.0,
    "reward_std": 0.11029845873809853,
    "grade_std": 0.10408329997330662,
    "policy_loss": 0.5724521912873364,
    "value_loss": 0.29955086009085197,
    "entropy": 1.315814592066512,
    "tier": "advanced",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917853.9053843
  },
  {
    "update": 10,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 2.0203333333333333,
    "mean_grade": 0.7166666666666667,
    "mitigation_rate": 0.6666666666666666,
    "root_cause_rate": 0.6666666666666666,
    "reward_std": 0.563793919205709,
    "grade_std": 0.2753785273643051,
    "policy_loss": 0.5323805378972228,
    "value_loss": 0.2725912826826753,
    "entropy": 1.2631820083838514,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917865.0283709
  },
  {
    "update": 11,
    "mode": "hybrid-ollama-groq",
    "mean_reward": 1.7975000000000003,
    "mean_grade": 0.5499999999999999,
    "mitigation_rate": 0.3333333333333333,
    "root_cause_rate": 0.3333333333333333,
    "reward_std": 0.6948872210654046,
    "grade_std": 0.304138126514911,
    "policy_loss": 0.49511390024441726,
    "value_loss": 0.24805806724123453,
    "entropy": 1.2126547280484974,
    "tier": "expert",
    "actor": "ollama:qwen2.5:0.5b",
    "critic": "groq:llama-3.1-8b-instant",
    "ts": 1776917877.2485619
  }
]