nm-testing
/

Llama-4-Maverick-17B-128E-Instruct-block-FP8

Text Generation

compressed-tensors

Model card Files Files and versions

krishnateja95 commited on Oct 24

Commit

b9c0e8e

·

verified ·

1 Parent(s): 08eb03a

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -128,6 +128,8 @@ ecipe = QuantizationModifier(
 # Apply quantization.
 oneshot(model=model, recipe=recipe)
 # Save to disk in compressed-tensors format.
 SAVE_DIR = MODEL_ID.rstrip("/").split("/")[-1] + "-FP8-block"

 # Apply quantization.
 oneshot(model=model, recipe=recipe)
+dispatch_for_generation(model)
 # Save to disk in compressed-tensors format.
 SAVE_DIR = MODEL_ID.rstrip("/").split("/")[-1] + "-FP8-block"