LEGACY DATASET
These charts come from the kube-sre-gym-style heuristic + early notebook runs — the 11 hand-curated tasks in
rl-agent/scenarios/{easy,medium,hard}/*.json, recorded into
rl-agent/checkpoints/<run>/metrics.jsonl and
colab/logs/reward_breakdown_history.jsonl. They do not include the 381-task PPO Kaggle run.
Training progress
Run: ppo-v4-hybrid-ollama-groq · mode: hybrid-ollama-groq · 12 updates recorded.
Reward & grade
Policy / value loss
Entropy
Mitigation / root-cause rate
Raw metrics (last 25 updates)
[
{
"update": 0,
"mode": "hybrid-ollama-groq",
"mean_reward": 2.0623333333333336,
"mean_grade": 0.65,
"mitigation_rate": 1.0,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.31702576130865656,
"grade_std": 0.1322875655532296,
"policy_loss": 1.1,
"value_loss": 0.7,
"entropy": 1.9,
"tier": "warmup",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917747.3661118
},
{
"update": 1,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.8716666666666668,
"mean_grade": 0.6166666666666667,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.6264252416157362,
"grade_std": 0.22546248764114468,
"policy_loss": 1.0230000000000001,
"value_loss": 0.637,
"entropy": 1.8239999999999998,
"tier": "warmup",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917760.5548215
},
{
"update": 2,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.6476666666666666,
"mean_grade": 0.5333333333333333,
"mitigation_rate": 0.3333333333333333,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.6621301483343992,
"grade_std": 0.32145502536643183,
"policy_loss": 0.9513900000000002,
"value_loss": 0.57967,
"entropy": 1.75104,
"tier": "beginner",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917775.420131
},
{
"update": 3,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.8541666666666667,
"mean_grade": 0.6333333333333333,
"mitigation_rate": 0.3333333333333333,
"root_cause_rate": 0.6666666666666666,
"reward_std": 0.5222481051505437,
"grade_std": 0.22546248764114468,
"policy_loss": 0.8847927000000002,
"value_loss": 0.5274997,
"entropy": 1.6809983999999996,
"tier": "beginner",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917788.188611
},
{
"update": 4,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.5176666666666667,
"mean_grade": 0.5166666666666666,
"mitigation_rate": 0.3333333333333333,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.36451691776011363,
"grade_std": 0.1527525231651947,
"policy_loss": 0.8228572110000003,
"value_loss": 0.48002472700000004,
"entropy": 1.6137584639999996,
"tier": "intermediate",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917800.6299942
},
{
"update": 5,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.5123333333333333,
"mean_grade": 0.3333333333333333,
"mitigation_rate": 0.0,
"root_cause_rate": 0.0,
"reward_std": 0.1876075247247116,
"grade_std": 0.028867513459481284,
"policy_loss": 0.7652572062300003,
"value_loss": 0.4368225015700001,
"entropy": 1.5492081254399996,
"tier": "intermediate",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917811.1109092
},
{
"update": 6,
"mode": "hybrid-ollama-groq",
"mean_reward": 2.0743333333333336,
"mean_grade": 0.6833333333333332,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.6666666666666666,
"reward_std": 0.5528529038843275,
"grade_std": 0.2886751345948129,
"policy_loss": 0.7116892017939003,
"value_loss": 0.3975084764287001,
"entropy": 1.4872398004223997,
"tier": "intermediate",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917821.570856
},
{
"update": 7,
"mode": "hybrid-ollama-groq",
"mean_reward": 2.0396666666666667,
"mean_grade": 0.6333333333333333,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.5505218736193263,
"grade_std": 0.20207259421636903,
"policy_loss": 0.6618709576683274,
"value_loss": 0.36173271355011705,
"entropy": 1.4277502084055036,
"tier": "advanced",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917832.4140983
},
{
"update": 8,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.4009999999999998,
"mean_grade": 0.45,
"mitigation_rate": 0.0,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.5053263796795096,
"grade_std": 0.1322875655532296,
"policy_loss": 0.6155399906315444,
"value_loss": 0.3291767693306065,
"entropy": 1.3706402000692834,
"tier": "advanced",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917842.8114645
},
{
"update": 9,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.5235,
"mean_grade": 0.48333333333333334,
"mitigation_rate": 0.3333333333333333,
"root_cause_rate": 0.0,
"reward_std": 0.11029845873809853,
"grade_std": 0.10408329997330662,
"policy_loss": 0.5724521912873364,
"value_loss": 0.29955086009085197,
"entropy": 1.315814592066512,
"tier": "advanced",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917853.9053843
},
{
"update": 10,
"mode": "hybrid-ollama-groq",
"mean_reward": 2.0203333333333333,
"mean_grade": 0.7166666666666667,
"mitigation_rate": 0.6666666666666666,
"root_cause_rate": 0.6666666666666666,
"reward_std": 0.563793919205709,
"grade_std": 0.2753785273643051,
"policy_loss": 0.5323805378972228,
"value_loss": 0.2725912826826753,
"entropy": 1.2631820083838514,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917865.0283709
},
{
"update": 11,
"mode": "hybrid-ollama-groq",
"mean_reward": 1.7975000000000003,
"mean_grade": 0.5499999999999999,
"mitigation_rate": 0.3333333333333333,
"root_cause_rate": 0.3333333333333333,
"reward_std": 0.6948872210654046,
"grade_std": 0.304138126514911,
"policy_loss": 0.49511390024441726,
"value_loss": 0.24805806724123453,
"entropy": 1.2126547280484974,
"tier": "expert",
"actor": "ollama:qwen2.5:0.5b",
"critic": "groq:llama-3.1-8b-instant",
"ts": 1776917877.2485619
}
]