mt5-small-uzbek-grammar

This model is a fine-tuned version of google/mt5-small on the None dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 4
eval_batch_size: 4
seed: 42
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 2
mixed_precision_training: Native AMP

Epoch	Step	Validation Loss
0.0774	1000	nan
0.1549	2000	nan
0.2323	3000	nan
0.3098	4000	nan
0.3872	5000	nan
0.4646	6000	nan
0.5421	7000	nan
0.6195	8000	nan
0.6970	9000	nan
0.7744	10000	nan
0.8519	11000	nan
0.9293	12000	nan
1.0067	13000	nan
1.0842	14000	nan
1.1616	15000	nan
1.2391	16000	nan
1.3165	17000	nan
1.3939	18000	nan
1.4714	19000	nan
1.5488	20000	nan
1.6263	21000	nan
1.7037	22000	nan
1.7812	23000	nan
1.8586	24000	nan
1.9360	25000	nan

Safetensors

Model size

0.3B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

google/mt5-small

Finetuned

(644)

this model