Parveshiiii
/

Auto-Completer-0.1

Text Generation

auto-completion

text-generation-inference

Model card Files Files and versions

Parveshiiii commited on Sep 9, 2025

Commit

5e8cd76

·

verified ·

1 Parent(s): 8c37467

Update README.md

Files changed (1) hide show

README.md +64 -6

README.md CHANGED Viewed

@@ -70,19 +70,77 @@ library_name: transformers
 ---
 ## 🧪 Example Usage
 ```python
-from transformers import AutoTokenizer, AutoModelForCausalLM
-model = AutoModelForCausalLM.from_pretrained("your-username/Auto-Completer-0.1")
-tokenizer = AutoTokenizer.from_pretrained("your-username/Auto-Completer-0.1")
-prompt = "The integral of x squared from 0 to 1 is"
-inputs = tokenizer(prompt, return_tensors="pt")
-outputs = model.generate(**inputs, max_new_tokens=100)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
 ---

 ---
+### How to use
+```bash
+pip install transformers
+```
 ## 🧪 Example Usage
+>Don't try to use it as a chat model its not meant for that
+* _Using full precision_
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+checkpoint = "Parveshiiii/Auto-Completer-0.1"
+device = "cuda"  # or "cpu"
+tokenizer = AutoTokenizer.from_pretrained(checkpoint)
+model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
+inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
+outputs = model.generate(
+    inputs,
+    repetition_penalty=1.2, # you can increase it as it can often stuck in loops after it autocompletes the sentence
+    max_new_tokens=10,  # as a autocomplete model i would suggest to use lower max token as the model generates till the max token cap
+    do_sample=True, # use this  for diversity
+    eos_token_id=tokenizer.eos_token_id # Optional: stop at end-of-text
+)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+```
+* _Using `torch.bfloat16`_
+```python
+# pip install accelerate
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+checkpoint = "HuggingFaceTB/SmolLM2-360M"
+device = "cuda"
+tokenizer = AutoTokenizer.from_pretrained(checkpoint)
+model = AutoModelForCausalLM.from_pretrained(
+    checkpoint,
+    device_map="auto",
+    torch_dtype=torch.bfloat16  # or torch.float16 for fp16
+)
+# Encode prompt
+inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
+# Generate with sampling and token control
+outputs = model.generate(
+    inputs,
+    max_new_tokens=50,         # Limit output length
+    do_sample=True,            # Enable sampling for diversity
+    temperature=0.7,           # Controls randomness (lower = more deterministic)
+    top_p=0.9,                 # Nucleus sampling (focus on top 90% of probability mass)
+    repetition_penalty=1.2,    # Penalize repeated phrases
+    eos_token_id=tokenizer.eos_token_id  # Optional: stop at end-of-text
+)
+# Decode and print
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
+```bash
+>>> print(f"Memory footprint: {model.get_memory_footprint() / 1e6:.2f} MB")
+Memory footprint: 723.56 MB
+```
 ---