RL post-training - a jaygala24 Collection

jaygala24 's Collections

RL post-training

RL post-training

updated Apr 29

jaygala24/Qwen3-4B-GRPO-KL-math-reasoning

Text Generation • 4B • Updated Apr 20 • 99
jaygala24/Qwen3-4B-GRPO-math-reasoning

Text Generation • 4B • Updated Apr 20 • 7
jaygala24/Qwen3-4B-ReMax-math-reasoning

Text Generation • 4B • Updated Apr 20 • 9
jaygala24/Qwen3-4B-RLOO-math-reasoning

Text Generation • 4B • Updated Apr 26 • 19
jaygala24/Qwen3-4B-DAPO-math-reasoning

Text Generation • 4B • Updated Apr 29 • 19
jaygala24/Qwen3-1.7B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 8
jaygala24/Qwen3-1.7B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 10
jaygala24/Qwen3-1.7B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 10
jaygala24/Qwen3-1.7B-RLOO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 21
jaygala24/Qwen3-1.7B-DAPO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 20
jaygala24/Qwen2.5-3B-GRPO-KL-math-reasoning

Text Generation • 3B • Updated Apr 20 • 8
jaygala24/Qwen2.5-3B-GRPO-math-reasoning

Text Generation • 3B • Updated Apr 20 • 9
jaygala24/Qwen2.5-3B-ReMax-math-reasoning

Text Generation • 3B • Updated Apr 20 • 8
jaygala24/Qwen2.5-3B-RLOO-math-reasoning

Text Generation • 3B • Updated Apr 25 • 23
jaygala24/Qwen2.5-3B-DAPO-math-reasoning

Text Generation • 3B • Updated Apr 25 • 22
jaygala24/Qwen2.5-1.5B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 8
jaygala24/Qwen2.5-1.5B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 6
jaygala24/Qwen2.5-1.5B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 6
jaygala24/Qwen2.5-1.5B-RLOO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 20
jaygala24/Qwen2.5-1.5B-DAPO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 23
jaygala24/Qwen2.5-0.5B-GRPO-KL-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 9
jaygala24/Qwen2.5-0.5B-GRPO-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 8
jaygala24/Qwen2.5-0.5B-ReMax-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 7
jaygala24/Qwen2.5-0.5B-RLOO-math-reasoning

Text Generation • 0.5B • Updated Apr 25 • 21
jaygala24/Qwen2.5-0.5B-DAPO-math-reasoning

Text Generation • 0.5B • Updated Apr 25 • 25