TinyQwen3-Engram-HC-Darija ๐ฒ๐ฆ
A 122.6M parameter causal language model pretrained on Moroccan Darija (Moroccan Arabic), built with:
- Qwen3-style architecture (GQA, QK-Norm, RoPE, SwiGLU)
- Engram โ n-gram hash-based memory injection (GPU-native)
- Hyper-Connection (HC) โ multi-channel residual stream (hc_mult=4)
- FlashAttention via PyTorch SDPA
Quick Start
import os, sys
from huggingface_hub import hf_hub_download
model_path = hf_hub_download("Lyte/TinyQwen3-Engram-HC-Darija", "modeling.py")
sys.path.insert(0, os.path.dirname(model_path))
from modeling import load_model, generate
model, tokenizer = load_model("Lyte/TinyQwen3-Engram-HC-Darija")
print(generate(model, tokenizer, "ุงูู
ุบุฑุจ ุจูุงุฏ"))
print(generate(model, tokenizer, "ูููุงุด ููุฏุฑ"))
print(generate(model, tokenizer, "ุงูุฏุงุฑ ุงูุจูุถุงุก ูู"))
Generation Parameters
generate(model, tokenizer, prompt,
temperature=0.5,
top_k=40,
top_p=0.9,
min_p=0.02,
repetition_penalty=1.3,
frequency_penalty=0.4,
presence_penalty=0.4,
max_new=150,
)
Engram Ablation
model.set_skip_engram(False)
print(generate(model, tokenizer, "ุงูู
ุบุฑุจ ุจูุงุฏ"))
model.set_skip_engram(True)
print(generate(model, tokenizer, "ุงูู
ุบุฑุจ ุจูุงุฏ"))
Example Outputs
With Engram โ
| Temperature |
Prompt |
Output |
| 0.1 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏูุ ููุธุงู
ุงูุญูู
ุงูุฐุงุชู ูู ุงูุตุญุฑุงุก ุงูู
ุบุฑุจูุฉ. |
| 0.1 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ููููู ู
ุนุงู |
| 0.1 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ู ุจูู ุงูุฃุณุจุงุจ ุงูุชู ุชุฌุนูู ูู ุญุงุฌุฉ ุฅูู ู
ุณุงุนุฏุฉ ุงูู
ุบุงุฑุจุฉ ุนูู ุงูุจูุงุก. |
| 0.1 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ุงูู
ุฏูุ ููุชุฌู
ุน ูุฑูุณุง ูุงูุฌุฒุงุฆุฑ. |
| 0.3 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏูุ ูุงูุทูุงูุง ู
ู ู
ูุงูููุง ุงูุณูุงุณูุฉ ูุงูุงูุชุตุงุฏูุฉ ูู ุงูู
ุบุฑุจ. |
| 0.3 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ููููู ู
ุนุงู ููุงุฏุดู ู
ุง ููุฏูุฑุด ููุง.. |
| 0.3 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ุฑุงูุดุ ูุณูุณ ูุงูุฑุจุงุท. |
| 0.3 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ุงูุฃุญุฏุงุซุ ููุชููู ู
ุบุงู
ุฑุงุชูุง ู
ุน ุจุนุถูุงุชูู
. |
| 0.5 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏูุ ูููุง ูู
ุง ุฃุนููุชู ูุฒุงุฑุฉ ุงูุฎุงุฑุฌูุฉ ุงูู
ุบุฑุจูุฉ. |
| 0.5 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ููููู ู
ุนุงูุ |
| 0.5 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ุฑุงูุดุ ููุงุฏู ุงููุฏุงุฏ ุงูุฑูุงุถู. |
| 0.5 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ุงูุชุตุงูุฑ ูุงูููู
ูุงุกุ ูุจุงุด ูููู ูููุง ููู ุบุงุฏู ููููู ู
ุนุงูุง. |
| 0.7 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏู. |
| 0.7 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ููููู ู
ูู
ูููุด ุงูุง ู
ุฑูุถ ุจุฒุงู ูุงูุง ุดููู ูุงู ูููุง ูุงุฎุง ู
ุงุดู ุฏุงุจุง. |
| 0.7 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ูู ูู
ูุณูุ ุงูุฐู ูุดุบู ู
ูุตุจ ูุฒูุฑ ุงูุชุฑุจูุฉ ุงููุทููุฉ ูุงูุชูููู ุงูู
ููู. |
| 0.7 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ุงูุชุตุงูุฑ ูุงูููู
ูุงุกุ ูููู ู
ุงุฏุงู
ุฃู ูุงุฐ ุงูู
ูุงูุงุช ุบูุฑ ุชูุฏุฑ ุชููู ู
ุดููุฑุฉ ุจุงูุญุณุงุจ ุงููู ูุงูุช ูุชููู ุจูู ุตุงุญุจุฉ ุงูุฌู
ูุฉ ูู ุนุงุฑูุฉ ุฃููุง ูุงูุฏุฉ ูููุนู ููุชุณุชุนู
ู ู
ุนุงู ุจุงุด ูู
ุดูู ููู
ูุชุจ ุฏูุงูู. |
| 0.9 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏู. |
| 0.9 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ู
ุงูุฏูุฑ ุดู ุญุงุฌุฉ ู
ู ุจุนุฏ ุฎููุชููุง ููู ุจุฒุงู |
| 0.9 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ูู ูู
ูููู. |
| 0.9 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ุงูุชุตุงูุฑ ูุงููุงุฑููุงุชูุฑุ ู ู
ุงุฏุงุจุด ูุถุฑุงุช ุจุงููุฑูุณูุฉ "ุงูุฎูุงุชู
ุฉ" ุงููู ููู
ูุงู ูู ุฃููู
ูุญุงุตุฑู ุงูุงู
ุงุฒูุบูุฉ ูุงูุฎุงุฑุฌ. |
| 1.0 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏู. |
| 1.0 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ู
ุงูุฏูุฑ ุดู ุญุงุฌุฉ ู
ู ุจุนุฏ ููุง ุงูุณุงูุง ุญุชู ุจุฒุงู |
| 1.0 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ูู ูู
ูููู. |
| 1.0 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ุงูุชุตุงูุฑ ูุงููุงุฑููุงุชูุฑุ ู ู
ุงุฏุงุจุด ูุถุฑุงุช ุจุงููุฑูุณูุฉ "ุงูุฎูุงุชู
ุฉ" ูููู ูุงูุฃู
ูุฑ ุงููุฌุฑุช ุจูู ุชุงุฌุฑ ู
ุนุฑูู ูู ุจุนุถ ุงูุญุงูุงุชู: |
| 1.2 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏู (ุตูู-ู
ุชูุณุท โ 1420 ู
|
| 1.2 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ู
ุงูุฏูุฑ ุดู ุญุงุฌุฉ ู
ู ุจุนุฏ ููุง ุงูุณุงูุง ุญุชู ุจุฒุงู |
| 1.2 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ุฏู ูู
ุคุณุณุงุช ุณูููุฉุ ุงูุชุตุงุฏูุง ุจุตูุชูุง ุงูุฏููุฉ ุงูููุฑูุฉ ุงูุชู ุชู
ุชุฏ ุนูู ุญูุงูู 1268 ู
ูููู ุฏุฑูู
ุณูููุง ู
ู ุฃุตู ุณุชุฉ ุขูุงู ู
ููุงุฑ ุณูุชูู
. |
| 1.2 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ุงูุชุตุงูุฑ ูุงููุงุฑููุงุชูุฑุ ู ู
ุงุฏุงุจุด ูููุง ุบูุฑ ุดููุฉ. |
Without Engram (backbone only)
| Temperature |
Prompt |
Output |
| 0.1 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏูุงุ ููุญู ูุญู ูู ุงูู
ุบุฑุจ. |
| 0.1 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ููููู ู
ุนุงูุฏููุด ู
ู ูุงุฏุดู ููุฑุฌุน ูุฏุงุฑูุง |
| 0.1 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ู ุฃูุฏู
ุงูู
ูุงูุน ุงูุฅุจุงุญูุฉ ูู ุงูุนุงูู
. |
| 0.1 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงูู ู ู
ูููููุด ููุงุฏุดู ูู ูุงู ููุฏูุฑูุง ูุงูุฏุงุฑ .. |
| 0.3 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏ ู
ูููุ ููุธุงู
ุงูุชุญูู
ูู ุงูุทุฑู ูุงููุฑุงุฑุงุช ุงูู
ูุชููุฉ. |
| 0.3 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ููููู ู
ุนุงูุฏููุด ุงูุง ู
ุงุดู ู
ู ูุงุฏ ุงูู
ุฑุฉ ููุฑุฌุน ูุฏุงุฑู |
| 0.3 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ูู ูู
ู ููุญุฏุฑ ู
ู ุนุจุงู ููุณุฑู ูู ุฌุณุฏูุงุ ูุชููุฏ ุฃุญูุงู
ู ุงูู
ุซูุฑุฉ ุงูุชู ุชุบู
ุฑูุง ุจุฌูุงุฑ ุบุฑูุจุฉ. |
| 0.3 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงูู ู ู
ุงุจูุงุด ููุงุฏ ุงููุนุณุฉ ูู ูุงู ูููุง ุนูุงุดุฉุ ุดุฏุงุช ููู ุชููููุทูุง ุนูู ูุณุงููุง ู ุฎุฑุฌุงุช ู
ู ุงูุจุงุจ ุฏุฎูุงุช ููุฏุงุฑ ู ุทูุนุงุชูุง ุจูุงุช ุณุงูุชุฉ .. |
| 0.5 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏ ู
ุทุฑูุณุฉ ูู ุงูู
ุฎุฒูุ ููุญู ูููู ุฃููุง ูุง ููุจููู ุนูู ุฃุฑุถ ุงูู
ุบุฑุจ ุจุซู
ูุง ููุฐุง ุงูุดุนุจ ุงูุฐู ูู
ูุนุฏ ู
ู ุงูุตุงูู ุงููุณุงุฑู ููุง ูุณู
ุง ุฃู ุฏูููุง. |
| 0.5 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ููููู ู
ูู
ูููุด ุงูุง ู
ุฒุงู ููุฎููู ููุง ูุงู ุฎุงุตูู ุจุบูุช ูููุนุฑู ุดูู ุฏุงุจุง ุชุงูู ูุงุด ููุชุณูู |
| 0.5 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ูู ูู
ู ูุญุชุฑุณ ุงู
ุง ุชุฑูุด ุจุฒุงู ูุชุดูู ููู ูููุงุด ู
ุง ุฒุงุฏู ุญุชู ูุงูู ููู ุดู ุญุงุฌุฉ ุฎุฑุฌุงุช ู
ู ุงูุจุงุจ ูุฎุฑุฌุงุช ูุชุจูู ุนูู ุตุฏุฑู ููุงูุช: |
| 0.5 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงูู ู ู
ุงุจูุงุด ููุงุฏ ุงููุนู
ุฉ ูู ูุงูุช ูุงุชุญุณ ุจุงูุญูุฏ ูุงูุฎูู ู
ู ุงูู
ุฑุถุ ุญุชู ูู ุชูุตู ููุงุญุฏุฉ ุตุงุญุจุฉ ุฏุงูู ู ุนูุงูุง ุบูุฑ ุณุงููุฉ ุนูู ุงูุทุฑู ุงูุซุงูู ุจุงุด ูุตุจุฑ ุนูููุง ูุงุฏู. |
| 0.7 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏ ู
ุทุฑูุณุฉ ูู ุงูู
ุฎุฒูุ ููุญู ูููู ุฃููุง ูุง ููุจููู ุนูู ุฃุฑุถ ุงูู
ุบุฑุจ ุจุซู
ูุง ูุญุณุจ.. |
| 0.7 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ู
ุนุงูุฏุฉ ุดููุฉุ |
| 0.7 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ูู ูุชุฏููู ุงูู
ุฎุฏุฑุงุช ู ุงูุฃุบุงูู. |
| 0.7 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ู
ุซุจุนุฉ ุ ููุงุฏุดู ูู ูุงู ุชูุฏูุฑ ุจุฒุงู ูุญุฏุฉุ ูุงุฎุง ููู
ุง ู
ุงูุงููุด ุญุชู ููุงู ุตุงุญุจุฉ ู
ู ุงูุงู
ุณ ููุง ุฎูุงู ูุจูุช ุงูุณุฑูุญุฉ ูุงูุญุฏููุฉ. |
| 0.9 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏ ู
ุทุฑูุณุฉ ูู ุงูู
ุฎุฒูุ ู ุชูุงุจุฑ ุงููุงุฑู.. |
| 0.9 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ู
ุงูุฏูุฑ ุดู ุญุงุฌุฉ ู
ู ุจุนุฏุฉ ุนูู ููุงุก |
| 0.9 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ุซููุง ุ ูููุฏู
ุนูู ุงูุงู
ุฉ ุงูุฃููุงู
ูุงูุฃููุงู ููุนุฒู ุนูููุง ูู ุจุฑูุฉ ุงูุณุฎุงุฎ ูุงูุญููู. |
| 0.9 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ู
ุซุจุนุฉ ุ ูููุง ุฎุฑุงู ุชู
ุดุงุช ูุนูููุง ูุญุทู ููู ุนูู ุงูุทุจูุฉ ุญุชู ูุทูุฑู ุญูุงูุฌูุง .. ุฏุงู ุงูุชูู
ุฌุจุฏู ู
ู ุจูุงุตุชูุง ุทุงูุนูู ุจุงุบุงุฏ ู
ุงู
ูุนุณุด ูุจุท ูููุง ููุงู : ุดูู ูุงูุช ุ |
| 1.0 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏ ู
ุทุฑูุณุฉ ุ ููุนุฑู ุนูู ุงูุดุนุจ ูุฑุฌูู ุจุตูุชู ุงูุชุงุฑูุฎูุฉ ูุฃุฎุฑู ุฃุจุฑุฒูุงุ ูุดูุฏ ุงูุนุงูู
ุญุงุถุฑุง ูุงุญุชูุงุก ูุฐู ุงูุตุญุฑุงุช ุงูุงู
ุงุฒู. |
| 1.0 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ู
ุงูุฏูุฑ ุดู ุญุงุฌุฉ ู
ู ุจุนุฏุฉ ุนูู ููุงุก ูู ูุชุจุบู |
| 1.0 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ุซููุง ุ ูููุฏู
ุนูู ุงูุงู
ุฉ ุงูุฃููุงู
ูุงูุฃููุงู. |
| 1.0 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ู
ุซุจุนุฉ ุ ูููุง ุฎุฑุงู ุชู
ุดุงุช ูุนูููุง ุจุงูุฌูุฉุ ูุงุฎุง ููุง ู
ุง ููู
ูุด ุงูุธุฑู ููุชูุถุฑู |
| 1.2 |
ุงูู
ุบุฑุจ ุจูุงุฏ |
ุงูู
ุบุฑุจ ุจูุงุฏ ู
ุทุฑูุณุฉ ุ ูููุฑุถ ุนูู ุงูุดุนุจ ุฃู ุชุคุฑู ุจุทู ุงูู
ุบุงุฑุจุฉ ูุฃุฎุฑู ุฃุดุจู ู
ุง ูุงู ูุชุฑุชุจ ุนูููุง "ุฅูุง ูู
ู ูุง ุตุงุญ ููุง ููุง ุนูุจ ูุฏูู ุฅุตูุงุญ. ูููู ูุฐูู ูู
ููู ุดุฌุญ ู
ู ูู ุงูุฐูู ูุงููุง ุชุญุช ูุฌู
ูู
ุ ุฃู
ุฃูู ุงูุชู
ูุง ุญุชู ุงุณุชูุจูููุง โฆููู
ุฑุขุฆูู ูู ูุฐู ุงูุฃูุงู
ุจุงูุชูุตุงู ูุงูุฅู
ุนุงูุ ููู ุงูุดุงูุฏุฉ ูุงูุฎูุงูุฉ ุงูุณูุงุณูุฉ ุงูุนุฐูุฉ ุฌุนูุชูู
ุงูุฃุณุฑุฉ ูุงูุฃุฌุฏุงุฏ ูููุฉ ุ ูุฐุง ุงููุฏู ุงูุฐู ุณูุธูุฑ ุนููู ููุงู
ุงูู
ุฌุชู
ุน ุงููุทูู ูุงูู
ูุงูู ุงูุชู ูุชููููููุง ุถุฏ ุงูุงุณุชุจุฏุงุฏ ูุงูุชูุงู
ุจูู ุงูุดุจุงุจ ูุงููุฆุฉ ุงูุณุจุน ูุงูุดุจุงุจ .. |
| 1.2 |
ูููุงุด ููุฏุฑ |
ูููุงุด ููุฏุฑ ู
ุงูุฏูุฑ ุดู ุญุงุฌุฉ ู
ู ุจุนุฏุฉ ุงูุณุง ูุงุฏุงู ูู ุฌูุช .. |
| 1.2 |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู |
ุงูุฏุงุฑ ุงูุจูุถุงุก ูู ู
ุซููุง ุ ูููุฏู
ุนูู ุงูุงู
ุฉ ุงูุฃููุงู
ูุงูุฃููุงู. |
| 1.2 |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู |
ูุงูู
ุบุฑุจ ูุงูู ุจุฒุงู ุฏูุงู ู
ุซุจุนุฉ ุ ูููุง ุฎุฑุงู ุชู
ุดุงุช ุจุฒุงุฌุฉ ูุญูููู .. ู
ุดุงู ูุทูุนู ูุทุจู ูููุชู ููุง ุจุฏ ูููุง ุฌููุง ุจูู ุงูุฏููุง ููุงู ุจุตูุช ู
ุงู
ุจุงูุบูุด ู
ุงุฎุงุตูู
ุญุชู ูุงุญุฏ |
Observations
- Engram improves coherence: with engram, outputs are more structured (news-style, proper sentences). Without engram, the model tends toward conversational/informal Darija.
- Recommended temperature: 0.3โ0.5 for coherent factual text, 0.7โ0.9 for creative/conversational Darija.
- Both modes produce genuine Darija: "ููููู ู
ุนุงู ููุฑุฌุนู ููุฏุงุฑ", "ูููุถู
ููุง", "ู
ุงุจุบูุชุด ูุฏุฎูู ูุฏุงุฑูู
" โ all authentic Moroccan dialect.
Model Details
| Parameter |
Value |
| Total params |
122.6M |
| Engram params |
26.1M |
| Non-embedding (unique) |
45.0M |
| Architecture |
TinyQwen3 + Engram + HC |
| HC multiplier |
4 |
| Embedding dim |
512 |
| Attention heads |
8 (4 KV groups, GQA) |
| Head dim |
64 |
| FFN hidden |
1536 (SwiGLU) |
| Layers |
6 |
| Context length |
512 |
| Vocab size |
151,669 (Qwen3 tokenizer) |
| Engram layers |
Injected before blocks 1 and 4 |
| Engram vocab |
2ร10,000 (bigram + trigram) |
| Dtype |
bfloat16 |
Training Details
| Parameter |
Value |
| Dataset |
Lyte/AryPretrainingDeduped-Splits |
| Language |
Moroccan Darija (ary) + Arabic (ar) |
| Tokens trained |
~2.95B |
| Optimizer updates |
20,000 |
| Batch size |
96 (ร3 grad accum = 288 effective) |
| Learning rate |
3e-4 (cosine decay to 1e-5) |
| Warmup |
500 updates |
| Optimizer |
AdamW (fused, ฮฒ=(0.9, 0.95)) |
| Hardware |
NVIDIA H200 141GB |
| Throughput |
~214K tok/s |
| Training time |
~3.5 hours |
| Final loss |
2.6537 |
Loss Curve
12.0 โคโ
9.0 โค โ
6.0 โค โโ
4.0 โค โโโโ
3.0 โค โโโโโโโโ
2.5 โค โโโโโโโโโโโโ (final: 2.65)
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
0 4k 8k 12k 16k 20k
Architecture Notes
- Engram injects n-gram aware embeddings via hashed lookup tables before transformer blocks 1 and 4. All hashing runs on GPU with no CPUโGPU synchronization.
- Hyper-Connection maintains a
[B, L, 4, D] residual stream. Each transformer block contracts to [B, L, D] for attention/FFN, then expands the delta back. Gates initialized with ReZero (ฮฒ=-4, sigmoidโ0.018).
- GQA uses native SDPA broadcasting (no
repeat_interleave).
Tokenizer
Uses Qwen/Qwen3-0.6B tokenizer (151,669 tokens). Loaded from Qwen directly at runtime โ no local tokenizer files bundled.
Limitations
- Small model (122M) โ generates plausible but factually unreliable text
- Short context (512 tokens)
- Trained on ~2 epochs of data (dataset boundary artifact around update 12K)
- No instruction tuning โ raw causal LM only
Citation
@misc{tinyqwen3-engram-hc-darija,
title={TinyQwen3-Engram-HC-Darija},
author={Lyte},
year={2026},
url={https://huggingface.co/Lyte/TinyQwen3-Engram-HC-Darija}
}