Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

reinforcement-learning

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

70,971

Full-text search

Active filters: reinforcement-learning

nvidia/NitroGen

Reinforcement Learning • Updated about 1 month ago • 518

Adilbai/stock-trading-rl-agent

Reinforcement Learning • Updated Jan 8 • 275 • 114

zai-org/GLM-TTS

Text-to-Speech • Updated Jan 12 • 192 • 324

BAAI-Humanoid/MOSAIC_Model

Reinforcement Learning • Updated 4 days ago • 4

nvidia/GEAR-SONIC

Reinforcement Learning • Updated 16 days ago • 16

MBZUAI/MediX-R1-8B

Image-Text-to-Text • 9B • Updated 8 days ago • 55 • 4

MBZUAI/MediX-R1-30B

Image-Text-to-Text • 31B • Updated 8 days ago • 106 • 5

inclusionAI/AReaL-SEA-235B-A22B

Text Generation • 235B • Updated 6 days ago • 13 • 3

mradermacher/Qwen3-14B-ARPO-DeepSearch-GGUF

Reinforcement Learning • 15B • Updated Aug 12, 2025 • 59 • 4

JonusNattapong/AI-XAUUSD-Trading

Reinforcement Learning • Updated Oct 10, 2025 • 21

MBZUAI/MediX-R1-30B-GGUF

Image-Text-to-Text • 31B • Updated 8 days ago • 1.85k • 3

ytu-ce-cosmos/Turkish-Gemma-4b-T1-Scout

Text Generation • 4B • Updated 1 day ago • 2

sb3/ppo-MiniGrid-Empty-Random-5x5-v0

Reinforcement Learning • Updated Mar 31, 2023 • 21 • 1

sb3/ppo-MiniGrid-FourRooms-v0

Reinforcement Learning • Updated Mar 31, 2023 • 42 • 1

sb3/ppo-MiniGrid-GoToDoor-5x5-v0

Reinforcement Learning • Updated Mar 31, 2023 • 18 • 1

sb3/ppo-MiniGrid-PutNear-6x6-N2-v0

Reinforcement Learning • Updated Mar 31, 2023 • 15 • 1

sb3/ppo-MiniGrid-Unlock-v0

Reinforcement Learning • Updated Mar 31, 2023 • 22 • 3

NousResearch/DeepHermes-AscensionMaze-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated Apr 29, 2025 • 12 • 8

debashis/llama-1b-tool-router-grpo

Text Generation • 1B • Updated Jan 6 • 1 • 3

AdityaaXD/Multi-Agent_Reinforcement_Learning_Trading_System_Models

Reinforcement Learning • Updated Feb 1 • 116 • 5

Agents-X/PyVision-Image-7B-RL

Image-Text-to-Text • 8B • Updated 10 days ago • 15 • 1

Snowflake/Arctic-AWM-4B

Reinforcement Learning • 4B • Updated 25 days ago • 153 • 6

Shion1124/sapo-gdpo-dora-qwen-struct

Text Generation • 4B • Updated 23 days ago • 35 • 1

KraTUZen/HuggyTheStickFetcher

Reinforcement Learning • Updated 16 days ago • 93 • 1

MBZUAI/MediX-R1-2B

Image-Text-to-Text • 2B • Updated 8 days ago • 90 • 2

mradermacher/MediX-R1-8B-GGUF

Reinforcement Learning • 8B • Updated 7 days ago • 792 • 1

brandonlanexyz/dualist

Reinforcement Learning • Updated 7 days ago • 1

mradermacher/MediX-R1-8B-i1-GGUF

Reinforcement Learning • 8B • Updated 7 days ago • 4.51k • 1

TheBestMoldyCheese/ppo-LunarLander-v2

Reinforcement Learning • Updated 6 days ago • 145 • 1

Shreyansh327/Qwen3-1.7B-grpo-gsm8k

Reinforcement Learning • 2B • Updated 4 days ago • 94 • 1