mms-1b-all-Sagalee-orm-85hrs-4

This model is a fine-tuned version of facebook/mms-1b-all on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2759
  • Wer: 0.1432
  • Cer: 0.0298

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 3e-05
  • train_batch_size: 8
  • eval_batch_size: 4
  • seed: 42
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_ratio: 0.05
  • num_epochs: 100
  • mixed_precision_training: Native AMP

Training results

Training Loss Epoch Step Validation Loss Wer Cer
0.819 1.0 5613 0.2290 0.2918 0.0555
0.244 2.0 11226 0.2156 0.2651 0.0499
0.2177 3.0 16839 0.2111 0.2556 0.0470
0.2066 4.0 22452 0.2115 0.2498 0.0470
0.1988 5.0 28065 0.2030 0.2516 0.0474
0.1861 6.0 33678 0.1939 0.2417 0.0452
0.1692 7.0 39291 0.1948 0.2303 0.0437
0.1507 8.0 44904 0.1893 0.2181 0.0417
0.1333 9.0 50517 0.1947 0.2114 0.0406
0.1164 10.0 56130 0.1998 0.2093 0.0405
0.101 11.0 61743 0.1886 0.1982 0.0384
0.0878 12.0 67356 0.1878 0.1961 0.0380
0.077 13.0 72969 0.2061 0.1926 0.0377
0.0689 14.0 78582 0.2110 0.1906 0.0374
0.0625 15.0 84195 0.2119 0.1811 0.0358
0.057 16.0 89808 0.2249 0.1799 0.0356
0.0538 17.0 95421 0.2206 0.1802 0.0360
0.05 18.0 101034 0.2246 0.1791 0.0353
0.0467 19.0 106647 0.2249 0.1785 0.0355
0.0445 20.0 112260 0.2210 0.1739 0.0348
0.0421 21.0 117873 0.2298 0.1754 0.0352
0.0398 22.0 123486 0.2331 0.1678 0.0340
0.0376 23.0 129099 0.2212 0.1628 0.0332
0.0362 24.0 134712 0.2304 0.1670 0.0340
0.0343 25.0 140325 0.2307 0.1680 0.0341
0.0325 26.0 145938 0.2404 0.1648 0.0331
0.0313 27.0 151551 0.2378 0.1673 0.0338
0.03 28.0 157164 0.2418 0.1616 0.0330
0.029 29.0 162777 0.2435 0.1627 0.0329
0.0278 30.0 168390 0.2460 0.1642 0.0334
0.0275 31.0 174003 0.2420 0.1633 0.0332
0.0262 32.0 179616 0.2537 0.1607 0.0324
0.0259 33.0 185229 0.2451 0.1575 0.0324
0.025 34.0 190842 0.2432 0.1574 0.0319
0.024 35.0 196455 0.2584 0.1603 0.0327
0.0231 36.0 202068 0.2519 0.1604 0.0329
0.0224 37.0 207681 0.2506 0.1625 0.0327
0.0215 38.0 213294 0.2473 0.1571 0.0320
0.0218 39.0 218907 0.2551 0.1551 0.0318
0.0205 40.0 224520 0.2501 0.1547 0.0317
0.0198 41.0 230133 0.2590 0.1520 0.0312
0.0191 42.0 235746 0.2536 0.1528 0.0317
0.0192 43.0 241359 0.2453 0.1526 0.0311
0.0184 44.0 246972 0.2571 0.1558 0.0319
0.0178 45.0 252585 0.2444 0.1547 0.0314
0.0172 46.0 258198 0.2564 0.1526 0.0313
0.0168 47.0 263811 0.2564 0.1523 0.0312
0.0161 48.0 269424 0.2656 0.1494 0.0308
0.0154 49.0 275037 0.2505 0.1512 0.0310
0.0151 50.0 280650 0.2660 0.1485 0.0305
0.0145 51.0 286263 0.2496 0.1473 0.0303
0.0143 52.0 291876 0.2589 0.1480 0.0306
0.0134 53.0 297489 0.2645 0.1477 0.0303
0.0133 54.0 303102 0.2550 0.1505 0.0309
0.0133 55.0 308715 0.2707 0.1458 0.0299
0.0125 56.0 314328 0.2633 0.1446 0.0298
0.0124 57.0 319941 0.2691 0.1485 0.0309
0.0119 58.0 325554 0.2694 0.1462 0.0299
0.0116 59.0 331167 0.2737 0.1469 0.0306
0.0112 60.0 336780 0.2626 0.1454 0.0300
0.0108 61.0 342393 0.2686 0.1436 0.0299
0.0106 62.0 348006 0.2734 0.1451 0.0300
0.0107 63.0 353619 0.2693 0.1440 0.0298
0.0101 64.0 359232 0.2761 0.1467 0.0300
0.0098 65.0 364845 0.2714 0.1451 0.0301
0.0094 66.0 370458 0.2759 0.1432 0.0298

Framework versions

  • Transformers 4.49.0
  • Pytorch 2.5.1+cu121
  • Datasets 2.20.0
  • Tokenizers 0.21.0
Downloads last month
18
Safetensors
Model size
1.0B params
Tensor type
F32
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for Alvin-Nahabwe/mms-1b-all-Sagalee-orm-85hrs-4

Finetuned
(331)
this model

Spaces using Alvin-Nahabwe/mms-1b-all-Sagalee-orm-85hrs-4 2

Collection including Alvin-Nahabwe/mms-1b-all-Sagalee-orm-85hrs-4

Evaluation results