Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

282

Full-text search

Active filters: rl

caiyuchen/Spiral-step-13

Text Generation • 4B • Updated Nov 15, 2025 • 1

caiyuchen/Spiral-step-15

Text Generation • 4B • Updated Nov 15, 2025 • 1

caiyuchen/Spiral-step-16

Text Generation • 4B • Updated Nov 15, 2025 • 1

caiyuchen/Spiral-step-18

Text Generation • 4B • Updated Nov 15, 2025 • 1

caiyuchen/Spiral-step-17

Text Generation • 4B • Updated Nov 15, 2025 • 1

caiyuchen/Spiral-step-20

Text Generation • 4B • Updated Nov 15, 2025 • 1

caiyuchen/Spiral-step-19

Text Generation • 4B • Updated Nov 15, 2025 • 1

caiyuchen/Spiral-step-22

Text Generation • 4B • Updated Nov 15, 2025 • 2

caiyuchen/Spiral-step-21

Text Generation • 4B • Updated Nov 15, 2025 • 1

HarleyCooper/Qwen3-30B-Dakota1890

Text Generation • Updated Nov 23, 2025 • 2

HerrHruby/offline_acemath_rl_4b_inst_hard_with_dishsoap_16k_no_summ_curr_step_120

Text Generation • 4B • Updated 6 days ago • 27

HarleyCooper/Qwen3-30B-ThinkingMachines-Dakota1890

Reinforcement Learning • Updated Nov 23, 2025 • 1

tigres2526/CAI-20B-v2

Text Generation • 21B • Updated Dec 16, 2025 • 24

mradermacher/CAI-20B-v2-GGUF

Text Generation • 21B • Updated Dec 1, 2025 • 44

mradermacher/CAI-20B-v2-i1-GGUF

Text Generation • 21B • Updated Dec 4, 2025 • 144

socaitcy/SOCAIT-Hermes-14B

Text Generation • Updated Dec 4, 2025

ash256/qwen3-4b-question-gen

Text Generation • 4B • Updated Dec 7, 2025 • 4 • 1

pankajmathur/nanochat-d34-rl-all-ckpts

Text Generation • Updated Dec 9, 2025 • 1

pankajmathur/nanochat-d34-rl

Text Generation • Updated Dec 9, 2025

HallD/SkeptiSTEM-4B-v2-stageR3-grpo-lora

Text Generation • Updated Jan 4

ModalityDance/Omni-R1

Any-to-Any • 7B • Updated 29 days ago • 438

ModalityDance/Omni-R1-Zero

Any-to-Any • 7B • Updated 29 days ago • 328

ibrahima2222/nanochat-d32

IIGroup/X-Coder-RL-Qwen2.5-7B

8B • Updated Jan 13 • 77 • 1

IIGroup/X-Coder-RL-Qwen3-8B

8B • Updated Jan 13 • 78 • 1

mradermacher/X-Coder-RL-Qwen3-8B-GGUF

8B • Updated Jan 11 • 292

mradermacher/X-Coder-RL-Qwen2.5-7B-GGUF

8B • Updated Jan 11 • 69

mradermacher/X-Coder-RL-Qwen3-8B-i1-GGUF

8B • Updated Jan 11 • 1.09k • 1

mradermacher/X-Coder-RL-Qwen2.5-7B-i1-GGUF

8B • Updated Jan 11 • 241

Klingspor/StarPO-4B

Text Generation • 4B • Updated 6 days ago • 241