You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

TinyQwen3-Engram-HC-Darija ๐Ÿ‡ฒ๐Ÿ‡ฆ

A 122.6M parameter causal language model pretrained on Moroccan Darija (Moroccan Arabic), built with:

  • Qwen3-style architecture (GQA, QK-Norm, RoPE, SwiGLU)
  • Engram โ€” n-gram hash-based memory injection (GPU-native)
  • Hyper-Connection (HC) โ€” multi-channel residual stream (hc_mult=4)
  • FlashAttention via PyTorch SDPA

Quick Start

# pip install torch transformers sympy huggingface_hub tokenizers

import os, sys
from huggingface_hub import hf_hub_download

# Download and import the model code
model_path = hf_hub_download("Lyte/TinyQwen3-Engram-HC-Darija", "modeling.py")
sys.path.insert(0, os.path.dirname(model_path))
from modeling import load_model, generate

# Load model
model, tokenizer = load_model("Lyte/TinyQwen3-Engram-HC-Darija")

# Generate Moroccan Darija text
print(generate(model, tokenizer, "ุงู„ู…ุบุฑุจ ุจู„ุงุฏ"))
print(generate(model, tokenizer, "ูƒูŠูุงุด ู†ู‚ุฏุฑ"))
print(generate(model, tokenizer, "ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ"))

Generation Parameters

generate(model, tokenizer, prompt,
    temperature=0.5,          # 0.3-0.7 recommended (default: 0.5)
    top_k=40,                 # top-k filtering
    top_p=0.9,                # nucleus sampling
    min_p=0.02,               # drop tokens below 2% of max prob
    repetition_penalty=1.3,   # multiplicative penalty on seen tokens
    frequency_penalty=0.4,    # additive penalty by token count
    presence_penalty=0.4,     # flat penalty on any seen token
    max_new=150,              # max new tokens
)

Engram Ablation

# With engram (default)
model.set_skip_engram(False)
print(generate(model, tokenizer, "ุงู„ู…ุบุฑุจ ุจู„ุงุฏ"))

# Without engram (backbone only)
model.set_skip_engram(True)
print(generate(model, tokenizer, "ุงู„ู…ุบุฑุจ ุจู„ุงุฏ"))

Example Outputs

With Engram โœ…

Temperature Prompt Output
0.1 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู‡ุŒ ูˆู†ุธุงู… ุงู„ุญูƒู… ุงู„ุฐุงุชูŠ ููŠ ุงู„ุตุญุฑุงุก ุงู„ู…ุบุฑุจูŠุฉ.
0.1 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู†ู‚ูˆู„ูˆ ู…ุนุงูƒ
0.1 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู† ุจูŠู† ุงู„ุฃุณุจุงุจ ุงู„ุชูŠ ุชุฌุนู„ูƒ ููŠ ุญุงุฌุฉ ุฅู„ู‰ ู…ุณุงุนุฏุฉ ุงู„ู…ุบุงุฑุจุฉ ุนู„ู‰ ุงู„ุจู‚ุงุก.
0.1 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ุงู„ู…ุฏู†ุŒ ูˆูƒุชุฌู…ุน ูุฑู†ุณุง ูˆุงู„ุฌุฒุงุฆุฑ.
0.3 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู‡ุŒ ูˆุงู†ุทู„ุงู‚ุง ู…ู† ู…ูˆุงู‚ูู‡ุง ุงู„ุณูŠุงุณูŠุฉ ูˆุงู„ุงู‚ุชุตุงุฏูŠุฉ ููŠ ุงู„ู…ุบุฑุจ.
0.3 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู†ู‚ูˆู„ูˆ ู…ุนุงูƒ ูู‡ุงุฏุดูŠ ู…ุง ูƒู†ุฏูŠุฑุด ู„ูŠุง..
0.3 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ุฑุงูƒุดุŒ ูˆุณูˆุณ ูˆุงู„ุฑุจุงุท.
0.3 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ุงู„ุฃุญุฏุงุซุŒ ูˆูƒุชูƒูˆู† ู…ุบุงู…ุฑุงุชู‡ุง ู…ุน ุจุนุถูŠุงุชู‡ู….
0.5 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู‡ุŒ ูˆูู‚ุง ู„ู…ุง ุฃุนู„ู†ุชู‡ ูˆุฒุงุฑุฉ ุงู„ุฎุงุฑุฌูŠุฉ ุงู„ู…ุบุฑุจูŠุฉ.
0.5 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู†ู‚ูˆู„ูˆ ู…ุนุงูƒุŸ
0.5 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ุฑุงูƒุดุŒ ูˆู†ุงุฏูŠ ุงู„ูˆุฏุงุฏ ุงู„ุฑูŠุงุถูŠ.
0.5 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ุงู„ุชุตุงูˆุฑ ูˆุงู„ูƒูŠู…ูŠุงุกุŒ ูˆุจุงุด ูŠูˆู„ูŠ ู„ูŠู†ุง ููŠู† ุบุงุฏูŠ ูŠูƒูˆู†ูˆ ู…ุนุงูŠุง.
0.7 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู‡.
0.7 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู†ู‚ูˆู„ูˆ ู…ูƒู…ู„ูŠู†ุด ุงู†ุง ู…ุฑูŠุถ ุจุฒุงู ูˆุงู†ุง ุดูƒูˆู† ู‚ุงู„ ู„ูŠู‡ุง ูˆุงุฎุง ู…ุงุดูŠ ุฏุงุจุง.
0.7 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู„ูƒ ู„ู…ูˆุณู‰ุŒ ุงู„ุฐูŠ ูŠุดุบู„ ู…ู†ุตุจ ูˆุฒูŠุฑ ุงู„ุชุฑุจูŠุฉ ุงู„ูˆุทู†ูŠุฉ ูˆุงู„ุชูƒูˆูŠู† ุงู„ู…ู‡ู†ูŠ.
0.7 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ุงู„ุชุตุงูˆุฑ ูˆุงู„ูƒูŠู…ูŠุงุกุŒ ูˆู„ูƒู† ู…ุงุฏุงู… ุฃู† ู‡ุงุฐ ุงู„ู…ู‚ุงู„ุงุช ุบูŠุฑ ุชู‚ุฏุฑ ุชูƒูˆู† ู…ุดู‡ูˆุฑุฉ ุจุงู„ุญุณุงุจ ุงู„ู„ูŠ ูƒุงู†ุช ูƒุชู‚ูˆู„ ุจู„ูŠ ุตุงุญุจุฉ ุงู„ุฌู…ู„ุฉ ู„ูŠ ุนุงุฑูุฉ ุฃู†ู‡ุง ูุงู‚ุฏุฉ ู„ู„ูˆุนูŠ ูˆูƒุชุณุชุนู…ู„ ู…ุนุงู‡ ุจุงุด ูŠู…ุดูŠูˆ ู„ู„ู…ูƒุชุจ ุฏูŠุงู„ูˆ.
0.9 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู‡.
0.9 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู…ุงู†ุฏูŠุฑ ุดูŠ ุญุงุฌุฉ ู…ู† ุจุนุฏ ุฎู„ูŠุชูŠู‡ุง ู„ูŠู‡ ุจุฒุงู
0.9 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู„ูƒ ู„ู…ูˆูƒู„ูŠ.
0.9 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ุงู„ุชุตุงูˆุฑ ูˆุงู„ูƒุงุฑูŠูƒุงุชูŠุฑุŒ ูˆ ู…ุงุฏุงุจุด ู‡ุถุฑุงุช ุจุงู„ูุฑู†ุณูŠุฉ "ุงู„ุฎูˆุงุชู…ุฉ" ุงู„ู„ูŠ ูู‡ู…ู†ุงู‡ ู‡ูˆ ุฃู†ู‡ู… ูŠุญุงุตุฑูˆ ุงู„ุงู…ุงุฒูŠุบูŠุฉ ูุงู„ุฎุงุฑุฌ.
1.0 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู‡.
1.0 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู…ุงู†ุฏูŠุฑ ุดูŠ ุญุงุฌุฉ ู…ู† ุจุนุฏ ูˆู„ุง ุงู†ุณุงู‡ุง ุญุชู‰ ุจุฒุงู
1.0 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู„ูƒ ู„ู…ูˆูƒู„ูŠ.
1.0 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ุงู„ุชุตุงูˆุฑ ูˆุงู„ูƒุงุฑูŠูƒุงุชูŠุฑุŒ ูˆ ู…ุงุฏุงุจุด ู‡ุถุฑุงุช ุจุงู„ูุฑู†ุณูŠุฉ "ุงู„ุฎูˆุงุชู…ุฉ" ูˆู„ูƒู† ูุงู„ุฃู…ูˆุฑ ุงู†ูุฌุฑุช ุจูŠู† ุชุงุฌุฑ ู…ุนุฑูˆู ููŠ ุจุนุถ ุงู„ุญุงู„ุงุชู‡:
1.2 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู‡ (ุตูˆู†-ู…ุชูˆุณุท โ€“ 1420 ู…
1.2 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู…ุงู†ุฏูŠุฑ ุดูŠ ุญุงุฌุฉ ู…ู† ุจุนุฏ ูˆู„ุง ุงู†ุณุงู‡ุง ุญุชู‰ ุจุฒุงู
1.2 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ุฏู† ูˆู…ุคุณุณุงุช ุณูˆู‚ูŠุฉุŒ ุงู‚ุชุตุงุฏูŠุง ุจุตูุชู‡ุง ุงู„ุฏูˆู„ุฉ ุงู„ูƒูˆุฑูŠุฉ ุงู„ุชูŠ ุชู…ุชุฏ ุนู„ู‰ ุญูˆุงู„ูŠ 1268 ู…ู„ูŠูˆู† ุฏุฑู‡ู… ุณู†ูˆูŠุง ู…ู† ุฃุตู„ ุณุชุฉ ุขู„ุงู ู…ู„ูŠุงุฑ ุณู†ุชูŠู….
1.2 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ุงู„ุชุตุงูˆุฑ ูˆุงู„ูƒุงุฑูŠูƒุงุชูŠุฑุŒ ูˆ ู…ุงุฏุงุจุด ููŠู‡ุง ุบูŠุฑ ุดูˆูŠุฉ.

Without Engram (backbone only)

Temperature Prompt Output
0.1 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏู†ุงุŒ ูˆู†ุญู† ู†ุญู† ููŠ ุงู„ู…ุบุฑุจ.
0.1 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู†ู‚ูˆู„ูˆ ู…ุนุงูˆุฏูŠู†ุด ู…ู† ู‡ุงุฏุดูŠ ูˆู†ุฑุฌุน ู„ุฏุงุฑู†ุง
0.1 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู† ุฃู‚ุฏู… ุงู„ู…ูˆุงู‚ุน ุงู„ุฅุจุงุญูŠุฉ ููŠ ุงู„ุนุงู„ู….
0.1 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ูˆ ูˆ ู…ูƒูˆู„ูŠู†ุด ูู‡ุงุฏุดูŠ ู„ูŠ ูƒุงู† ูƒูŠุฏูŠุฑู‡ุง ูุงู„ุฏุงุฑ ..
0.3 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ู…ู„ูƒูŠุŒ ูˆู†ุธุงู… ุงู„ุชุญูƒู… ููŠ ุงู„ุทุฑู‚ ูˆุงู„ู‚ุฑุงุฑุงุช ุงู„ู…ูุชูˆูƒุฉ.
0.3 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู†ู‚ูˆู„ูˆ ู…ุนุงูˆุฏูŠู†ุด ุงู†ุง ู…ุงุดูŠ ู…ู† ู‡ุงุฏ ุงู„ู…ุฑุฉ ูˆู†ุฑุฌุน ู„ุฏุงุฑูŠ
0.3 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู„ูƒ ู„ู…ู† ูŠู†ุญุฏุฑ ู…ู† ุนุจุงู‡ ูˆูŠุณุฑู‚ ููŠ ุฌุณุฏู‡ุงุŒ ูุชู†ู‡ุฏ ุฃุญู„ุงู…ู‡ ุงู„ู…ุซูŠุฑุฉ ุงู„ุชูŠ ุชุบู…ุฑู‡ุง ุจุฌูˆุงุฑ ุบุฑูŠุจุฉ.
0.3 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ูˆ ูˆ ู…ุงุจู‚ุงุด ูู‡ุงุฏ ุงู„ู„ุนุณุฉ ู„ูŠ ูƒุงู† ููŠู‡ุง ุนู„ุงุดุฉุŒ ุดุฏุงุช ููŠู‡ ุชูŠู„ูŠูุทู‡ุง ุนู„ู‰ ู„ุณุงู†ู‡ุง ูˆ ุฎุฑุฌุงุช ู…ู† ุงู„ุจุงุจ ุฏุฎู„ุงุช ู„ู„ุฏุงุฑ ูˆ ุทู„ุนุงุชู‡ุง ุจู‚ุงุช ุณุงูƒุชุฉ ..
0.5 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ู…ุทุฑูˆุณุฉ ููŠ ุงู„ู…ุฎุฒู†ุŒ ูˆู†ุญู† ู†ู‚ูˆู„ ุฃู†ู†ุง ู„ุง ูŠู‚ุจู„ูˆู† ุนู„ู‰ ุฃุฑุถ ุงู„ู…ุบุฑุจ ุจุซู…ู†ุง ูู‡ุฐุง ุงู„ุดุนุจ ุงู„ุฐูŠ ู„ู… ูŠุนุฏ ู…ู† ุงู„ุตุงู„ู‚ ุงู„ูŠุณุงุฑูŠ ูˆู„ุง ู„ุณู…ุง ุฃูˆ ุฏูŠู†ูŠุง.
0.5 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู†ู‚ูˆู„ูˆ ู…ูƒู…ู„ูŠู†ุด ุงู†ุง ู…ุฒุงู„ ูƒู†ุฎู„ูŠู‡ ูŠู„ุง ูƒุงู† ุฎุงุตู†ูŠ ุจุบูŠุช ูˆูƒู†ุนุฑู ุดู†ูˆ ุฏุงุจุง ุชุงู†ูŠ ูุงุด ูƒู†ุชุณู†ู‰
0.5 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู„ูƒ ู„ู…ู† ูŠุญุชุฑุณ ุงู…ุง ุชุฑูŠุด ุจุฒุงู ูˆุชุดูˆู ููŠู‡ ูƒูŠูุงุด ู…ุง ุฒุงุฏูˆ ุญุชู‰ ูุงูŠู† ู„ูŠู‡ ุดูŠ ุญุงุฌุฉ ุฎุฑุฌุงุช ู…ู† ุงู„ุจุงุจ ูˆุฎุฑุฌุงุช ูƒุชุจูƒูŠ ุนู„ู‰ ุตุฏุฑูˆ ูˆู‚ุงู„ุช:
0.5 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ูˆ ูˆ ู…ุงุจู‚ุงุด ูู‡ุงุฏ ุงู„ู„ุนู…ุฉ ู„ูŠ ูƒุงู†ุช ูƒุงุชุญุณ ุจุงู„ุญู‚ุฏ ูˆุงู„ุฎูˆู ู…ู† ุงู„ู…ุฑุถุŒ ุญุชู‰ ู‡ูŠ ุชูˆุตู„ ู„ูˆุงุญุฏุฉ ุตุงุญุจุฉ ุฏุงู„ูƒ ูˆ ุนู„ุงู‡ุง ุบูŠุฑ ุณุงู‡ูŠุฉ ุนู„ู‰ ุงู„ุทุฑู ุงู„ุซุงู†ูŠ ุจุงุด ูŠุตุจุฑ ุนู„ูŠู‡ุง ู‡ุงุฏูŠ.
0.7 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ู…ุทุฑูˆุณุฉ ููŠ ุงู„ู…ุฎุฒู†ุŒ ูˆู†ุญู† ู†ู‚ูˆู„ ุฃู†ู†ุง ู„ุง ูŠู‚ุจู„ูˆู† ุนู„ู‰ ุฃุฑุถ ุงู„ู…ุบุฑุจ ุจุซู…ู†ุง ูุญุณุจ..
0.7 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู…ุนุงูˆุฏุฉ ุดูˆูŠุฉุŸ
0.7 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ู„ูƒ ู„ุชุฏู„ูŠูƒ ุงู„ู…ุฎุฏุฑุงุช ูˆ ุงู„ุฃุบุงู†ูŠ.
0.7 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ู…ุซุจุนุฉ ุŒ ูˆู‡ุงุฏุดูŠ ู„ูŠ ูƒุงู† ุชูŠุฏูŠุฑ ุจุฒุงู ูˆุญุฏุฉุŒ ูˆุงุฎุง ู‡ูˆู…ุง ู…ุงูƒุงูŠู†ุด ุญุชู‰ ู„ู‚ุงูˆ ุตุงุญุจุฉ ู…ู† ุงู„ุงู…ุณ ูˆู„ุง ุฎู„ุงู‡ ูุจูŠุช ุงู„ุณุฑูŠุญุฉ ูุงู„ุญุฏูŠู‚ุฉ.
0.9 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ู…ุทุฑูˆุณุฉ ููŠ ุงู„ู…ุฎุฒู†ุŒ ูˆ ุชู‡ุงุจุฑ ุงู„ูุงุฑู‚..
0.9 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู…ุงู†ุฏูŠุฑ ุดูŠ ุญุงุฌุฉ ู…ู† ุจุนุฏุฉ ุนู„ู‰ ูˆูุงุก
0.9 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ุซู„ูŠุง ุŒ ูˆูŠู‚ุฏู… ุนู„ู‰ ุงู‚ุงู…ุฉ ุงู„ุฃูู„ุงู… ูˆุงู„ุฃู„ูˆุงู† ูˆูŠุนุฒู ุนู„ูŠู‡ุง ููŠ ุจุฑูƒุฉ ุงู„ุณุฎุงุฎ ูˆุงู„ุญู„ูˆู‰.
0.9 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ู…ุซุจุนุฉ ุŒ ูˆู‡ูŠุง ุฎุฑุงูŠ ุชู…ุดุงุช ู„ุนู†ู‚ู‡ุง ูˆุญุทูˆ ู„ูŠู‡ ุนู„ู‰ ุงู„ุทุจู„ุฉ ุญุชู‰ ูุทูˆุฑูˆ ุญูˆุงูŠุฌู‡ุง .. ุฏุงูƒ ุงู„ุชูŠู… ุฌุจุฏูˆ ู…ู† ุจู„ุงุตุชู‡ุง ุทุงู„ุนูŠู† ุจุงุบุงุฏ ู…ุงู…ู†ุนุณุด ู‡ุจุท ููŠู‡ุง ูˆู‚ุงู„ : ุดู†ูˆ ู‚ุงู„ุช ุŸ
1.0 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ู…ุทุฑูˆุณุฉ ุŒ ูˆูŠุนุฑู ุนู„ู‰ ุงู„ุดุนุจ ูˆุฑุฌู„ู‡ ุจุตูุชู‡ ุงู„ุชุงุฑูŠุฎูŠุฉ ูˆุฃุฎุฑู‰ ุฃุจุฑุฒู‡ุงุŒ ูŠุดู‡ุฏ ุงู„ุนุงู„ู… ุญุงุถุฑุง ู„ุงุญุชูˆุงุก ู‡ุฐู‡ ุงู„ุตุญุฑุงุช ุงู„ุงู…ุงุฒูŠ.
1.0 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู…ุงู†ุฏูŠุฑ ุดูŠ ุญุงุฌุฉ ู…ู† ุจุนุฏุฉ ุนู„ู‰ ูˆูุงุก ู„ูŠ ูƒุชุจุบูŠ
1.0 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ุซู„ูŠุง ุŒ ูˆูŠู‚ุฏู… ุนู„ู‰ ุงู‚ุงู…ุฉ ุงู„ุฃูู„ุงู… ูˆุงู„ุฃู„ูˆุงู†.
1.0 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ู…ุซุจุนุฉ ุŒ ูˆู‡ูŠุง ุฎุฑุงูŠ ุชู…ุดุงุช ู„ุนู†ู‚ู‡ุง ุจุงู„ุฌู‡ุฉุŒ ูˆุงุฎุง ูŠู„ุง ู…ุง ูู‡ู…ูˆุด ุงู†ุธุฑูˆ ูˆูƒุชู‡ุถุฑูˆ
1.2 ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ุงู„ู…ุบุฑุจ ุจู„ุงุฏ ู…ุทุฑูˆุณุฉ ุŒ ูˆูŠูุฑุถ ุนู„ู‰ ุงู„ุดุนุจ ุฃู† ุชุคุฑู‚ ุจุทู† ุงู„ู…ุบุงุฑุจุฉ ูˆุฃุฎุฑู‰ ุฃุดุจู‡ ู…ุง ูƒุงู† ูŠุชุฑุชุจ ุนู„ูŠู‡ุง "ุฅู„ุง ู„ู…ู† ู„ุง ุตุงุญ ู„ู‡ุง ูˆู„ุง ุนูŠุจ ูˆุฏูˆู† ุฅุตู„ุงุญ. ููƒูŠู ู„ุฐู„ูƒ ู„ู… ูŠูƒู† ุดุฌุญ ู…ู† ูƒู„ ุงู„ุฐูŠู† ูƒุงู†ูˆุง ุชุญุช ู‡ุฌู…ู‡ู…ุŸ ุฃู… ุฃู†ู‡ ุงู‡ุชู…ูˆุง ุญุชู‰ ุงุณุชู‚ุจู„ูˆู‡ุง โ€ฆูˆูƒู… ุฑุขุฆูŠู† ููŠ ู‡ุฐู‡ ุงู„ุฃูŠุงู… ุจุงู„ุชูุตุงู‚ ูˆุงู„ุฅู…ุนุงู†ุŒ ู„ูƒู† ุงู„ุดุงู‡ุฏุฉ ูˆุงู„ุฎูุงูˆุฉ ุงู„ุณูŠุงุณูŠุฉ ุงู„ุนุฐูŠุฉ ุฌุนู„ุชู‡ู… ุงู„ุฃุณุฑุฉ ูˆุงู„ุฃุฌุฏุงุฏ ู‚ูˆูŠุฉ ุŸ ู‡ุฐุง ุงู„ู‡ุฏู ุงู„ุฐูŠ ุณูŠุธู‡ุฑ ุนู„ูŠู‡ ูƒู„ุงู… ุงู„ู…ุฌุชู…ุน ุงู„ูˆุทู†ูŠ ูˆุงู„ู…ูˆุงู‚ู ุงู„ุชูŠ ูŠุชูˆู‚ููˆู†ู‡ุง ุถุฏ ุงู„ุงุณุชุจุฏุงุฏ ูˆุงู„ุชู‡ุงู… ุจูŠู† ุงู„ุดุจุงุจ ูˆุงู„ูุฆุฉ ุงู„ุณุจุน ูˆุงู„ุดุจุงุจ ..
1.2 ูƒูŠูุงุด ู†ู‚ุฏุฑ ูƒูŠูุงุด ู†ู‚ุฏุฑ ู…ุงู†ุฏูŠุฑ ุดูŠ ุญุงุฌุฉ ู…ู† ุจุนุฏุฉ ุงู†ุณุง ู‡ุงุฏุงูƒ ูƒูŠ ุฌูŠุช ..
1.2 ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ุงู„ุฏุงุฑ ุงู„ุจูŠุถุงุก ู‡ูŠ ู…ุซู„ูŠุง ุŒ ูˆูŠู‚ุฏู… ุนู„ู‰ ุงู‚ุงู…ุฉ ุงู„ุฃูู„ุงู… ูˆุงู„ุฃู„ูˆุงู†.
1.2 ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ูุงู„ู…ุบุฑุจ ูƒุงูŠู† ุจุฒุงู ุฏูŠุงู„ ู…ุซุจุนุฉ ุŒ ูˆู‡ูŠุง ุฎุฑุงูŠ ุชู…ุดุงุช ุจุฒุงุฌุฉ ูˆุญู†ูŠูŠู† .. ู…ุดุงูˆ ูŠุทู„ุนูˆ ูุทุจู„ ู„ูŠู„ุชูˆ ูˆู„ุง ุจุฏ ู„ูŠู‡ุง ุฌู‡ู‡ุง ุจูŠู† ุงูŠุฏูŠู‡ุง ูˆู‚ุงู„ ุจุตูˆุช ู…ุงู…ุจุงู„ุบูŠุด ู…ุงุฎุงุตู‡ู… ุญุชู‰ ูˆุงุญุฏ

Observations

  • Engram improves coherence: with engram, outputs are more structured (news-style, proper sentences). Without engram, the model tends toward conversational/informal Darija.
  • Recommended temperature: 0.3โ€“0.5 for coherent factual text, 0.7โ€“0.9 for creative/conversational Darija.
  • Both modes produce genuine Darija: "ู†ูƒูˆู†ูˆ ู…ุนุงูƒ ูˆู†ุฑุฌุนูˆ ู„ู„ุฏุงุฑ", "ูƒูŠู‡ุถู…ูˆู‡ุง", "ู…ุงุจุบูŠุชุด ู†ุฏุฎู„ูˆ ู„ุฏุงุฑูƒู…" โ€” all authentic Moroccan dialect.

Model Details

Parameter Value
Total params 122.6M
Engram params 26.1M
Non-embedding (unique) 45.0M
Architecture TinyQwen3 + Engram + HC
HC multiplier 4
Embedding dim 512
Attention heads 8 (4 KV groups, GQA)
Head dim 64
FFN hidden 1536 (SwiGLU)
Layers 6
Context length 512
Vocab size 151,669 (Qwen3 tokenizer)
Engram layers Injected before blocks 1 and 4
Engram vocab 2ร—10,000 (bigram + trigram)
Dtype bfloat16

Training Details

Parameter Value
Dataset Lyte/AryPretrainingDeduped-Splits
Language Moroccan Darija (ary) + Arabic (ar)
Tokens trained ~2.95B
Optimizer updates 20,000
Batch size 96 (ร—3 grad accum = 288 effective)
Learning rate 3e-4 (cosine decay to 1e-5)
Warmup 500 updates
Optimizer AdamW (fused, ฮฒ=(0.9, 0.95))
Hardware NVIDIA H200 141GB
Throughput ~214K tok/s
Training time ~3.5 hours
Final loss 2.6537

Loss Curve

12.0 โ”คโ–ˆ
 9.0 โ”ค  โ–ˆ
 6.0 โ”ค    โ–ˆโ–ˆ
 4.0 โ”ค      โ–ˆโ–ˆโ–ˆโ–ˆ
 3.0 โ”ค          โ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆ
 2.5 โ”ค                  โ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆโ–ˆ  (final: 2.65)
     โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€
     0    4k    8k   12k   16k   20k

Architecture Notes

  • Engram injects n-gram aware embeddings via hashed lookup tables before transformer blocks 1 and 4. All hashing runs on GPU with no CPUโ†”GPU synchronization.
  • Hyper-Connection maintains a [B, L, 4, D] residual stream. Each transformer block contracts to [B, L, D] for attention/FFN, then expands the delta back. Gates initialized with ReZero (ฮฒ=-4, sigmoidโ‰ˆ0.018).
  • GQA uses native SDPA broadcasting (no repeat_interleave).

Tokenizer

Uses Qwen/Qwen3-0.6B tokenizer (151,669 tokens). Loaded from Qwen directly at runtime โ€” no local tokenizer files bundled.

Limitations

  • Small model (122M) โ€” generates plausible but factually unreliable text
  • Short context (512 tokens)
  • Trained on ~2 epochs of data (dataset boundary artifact around update 12K)
  • No instruction tuning โ€” raw causal LM only

Citation

@misc{tinyqwen3-engram-hc-darija,
  title={TinyQwen3-Engram-HC-Darija},
  author={Lyte},
  year={2026},
  url={https://huggingface.co/Lyte/TinyQwen3-Engram-HC-Darija}
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
I64
ยท
F32
ยท
BF16
ยท
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support