Recommended models for 16GB VRAM - a olegshulyakov Collection

olegshulyakov 's Collections

Recommended models for 16GB VRAM

updated Aug 8

This collection contains some of the recent models that fits into 16GB BRAM that should be high quality and reliable

Upvote

bartowski/google_gemma-3n-E4B-it-GGUF

Text Generation • 7B • Updated Jun 27 • 5.58k • 17

Note llama-server --host 0.0.0.0 --port 1234 --gpu-layers 99 --alias "gemma3n:e4b" --hf-repo "bartowski/google_gemma-3n-E4B-it-GGUF:Q4_K_L" --ctx-size 32768 --jinja --repeat-penalty 1.0 --temp 1.0 -top-k 64 --min-p 0.0 --top-p 0.95 --no-mmap --flash-attn
bartowski/google_gemma-3-27b-it-qat-GGUF

Image-Text-to-Text • 27B • Updated Apr 22 • 4.07k • 33

Note llama-server --host 0.0.0.0 --port 1234 --gpu-layers 99 --alias "gemma3:27b" --hf-repo "bartowski/google_gemma-3-27b-it-qat-GGUF:Q3_K_XL" --ctx-size 131072 --jinja --repeat-penalty 1.0 --temp 1.0 -top-k 64 --min-p 0.0 --top-p 0.95 --no-mmproj --no-mmap --flash-attn --cache-type-k q8_0 --cache-type-v q8_0
bartowski/deepseek-ai_DeepSeek-R1-0528-Qwen3-8B-GGUF

Text Generation • 8B • Updated May 29 • 4.3k • 47

Note llama-server --host 0.0.0.0 --port 1234 --gpu-layers 99 --alias "deepseek-r1:8b" --hf-repo "bartowski/deepseek-ai_DeepSeek-R1-0528-Qwen3-8B-GGUF:Q4_K_L" --ctx-size 131072 --jinja --repeat-penalty 1.0 --temp 0.6 -top-k 20 --min-p 0.0 --top-p 0.95 --no-mmap --flash-attn
bartowski/mistralai_Devstral-Small-2507-GGUF

Image-Text-to-Text • 24B • Updated Jul 12 • 3.81k • 9

Note llama-server --host 0.0.0.0 --port 1234 --gpu-layers 99 --alias "devstral:24b" --hf-repo "bartowski/mistralai_Devstral-Small-2507-GGUF:Q4_K_L" --ctx-size 131072 --jinja --repeat-penalty 1.0 --temp 0.15 -top-k 64 --min-p 0.01 --top-p 0.95 --no-mmproj --no-mmap --flash-attn --cache-type-k q8_0 --cache-type-v q8_0

Upvote