Parveshiiii
/

Auto-Completer-0.1

Text Generation

auto-completion

text-generation-inference

Model card Files Files and versions

Parveshiiii commited on Sep 9

Commit

e392a7a

·

verified ·

1 Parent(s): 636edc1

Update README.md

Files changed (1) hide show

README.md +7 -7

README.md CHANGED Viewed

@@ -95,10 +95,10 @@ inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
 outputs = model.generate(
     inputs,
-    repetition_penalty=1.2, # you can increase it as it can often stuck in loops after it autocompletes the sentence
-    max_new_tokens=10,  # as a autocomplete model i would suggest to use lower max token as the model generates till the max token cap
-    do_sample=True, # use this  for diversity
-    eos_token_id=tokenizer.eos_token_id # Optional: stop at end-of-text
 )
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
@@ -110,7 +110,7 @@ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
-checkpoint = "HuggingFaceTB/SmolLM2-360M"
 device = "cuda"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
@@ -126,11 +126,11 @@ inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
 # Generate with sampling and token control
 outputs = model.generate(
     inputs,
-    max_new_tokens=50,         # Limit output length
     do_sample=True,            # Enable sampling for diversity
     temperature=0.7,           # Controls randomness (lower = more deterministic)
     top_p=0.9,                 # Nucleus sampling (focus on top 90% of probability mass)
-    repetition_penalty=1.2,    # Penalize repeated phrases
     eos_token_id=tokenizer.eos_token_id  # Optional: stop at end-of-text
 )

 outputs = model.generate(
     inputs,
+    repetition_penalty=1.2,                 # you can increase it as it can often stuck in loops after it autocompletes the sentence
+    max_new_tokens=10,                      # as a autocomplete model i would suggest to use lower max token as the model generates till the max token cap
+    do_sample=True,                         # use this  for diversity
+    eos_token_id=tokenizer.eos_token_id     # Optional: stop at end-of-text
 )
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
+checkpoint = "Parveshiiii/Auto-Completer-0.1"
 device = "cuda"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # Generate with sampling and token control
 outputs = model.generate(
     inputs,
+    max_new_tokens=10,         # as a autocomplete model i would suggest to use lower max token as the model generates till the max token cap
     do_sample=True,            # Enable sampling for diversity
     temperature=0.7,           # Controls randomness (lower = more deterministic)
     top_p=0.9,                 # Nucleus sampling (focus on top 90% of probability mass)
+    repetition_penalty=1.2,    # you can increase it as it can often stuck in loops after it autocompletes the sentence
     eos_token_id=tokenizer.eos_token_id  # Optional: stop at end-of-text
 )