MariaOls commited on Oct 14, 2025

Commit

ebd8bbb

verified ·

1 Parent(s): 5effa06

Upload folder using huggingface_hub

Browse files

Files changed (21) hide show

checkpoint-1131/model.safetensors +1 -1
checkpoint-1131/optimizer.pt +1 -1
checkpoint-1131/trainer_state.json +68 -68
checkpoint-1131/training_args.bin +1 -1
checkpoint-1508/model.safetensors +1 -1
checkpoint-1508/optimizer.pt +1 -1
checkpoint-1508/trainer_state.json +92 -92
checkpoint-1508/training_args.bin +1 -1
checkpoint-377/model.safetensors +1 -1
checkpoint-377/optimizer.pt +1 -1
checkpoint-377/trainer_state.json +24 -24
checkpoint-377/training_args.bin +1 -1
checkpoint-754/model.safetensors +1 -1
checkpoint-754/optimizer.pt +1 -1
checkpoint-754/trainer_state.json +48 -48
checkpoint-754/training_args.bin +1 -1
metrics.json +4 -4
model.safetensors +1 -1
test_records.json +0 -0
train_records.json +0 -0
training_args.bin +1 -1

checkpoint-1131/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec9b4e02309731a17a0e550199dfc0b653b8b2efb72a87cbe399f458df4d060a
 size 711449600

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbfe56b9869f41724aeb21aff529b6fc717527dbece02e1d54b76e182981fe9d
 size 711449600

checkpoint-1131/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2cb20821891b7df7b9cffbd730ee591d833df2c136e22191a72e76023bd1592
 size 1423014650

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e09a0e36bd4fa895040b7ce89d9e58bec334afecef8e2cdd80c5b98483fbde5
 size 1423014650

checkpoint-1131/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.9873248832555037,
   "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-1131",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -10,192 +10,192 @@
   "log_history": [
     {
       "epoch": 0.13262599469496023,
-      "grad_norm": 8.819928169250488,
       "learning_rate": 6.622516556291392e-06,
-      "loss": 0.6464,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
-      "grad_norm": 6.598285675048828,
       "learning_rate": 1.3245033112582784e-05,
-      "loss": 0.388,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
-      "grad_norm": 0.30871227383613586,
       "learning_rate": 1.9867549668874173e-05,
-      "loss": 0.1931,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
-      "grad_norm": 6.666228294372559,
       "learning_rate": 1.9277818717759768e-05,
-      "loss": 0.1591,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
-      "grad_norm": 0.44178861379623413,
       "learning_rate": 1.8540899042004423e-05,
-      "loss": 0.1984,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
-      "grad_norm": 0.37462666630744934,
       "learning_rate": 1.780397936624908e-05,
-      "loss": 0.1124,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
-      "grad_norm": 0.0416572205722332,
       "learning_rate": 1.7067059690493736e-05,
-      "loss": 0.0809,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9812206572769953,
-      "eval_f1": 0.9865410497981157,
-      "eval_loss": 0.0956883653998375,
-      "eval_precision": 0.9932249322493225,
-      "eval_recall": 0.9799465240641712,
-      "eval_runtime": 60.5192,
-      "eval_samples_per_second": 17.598,
-      "eval_steps_per_second": 1.107,
       "step": 377
     },
     {
       "epoch": 1.0610079575596818,
-      "grad_norm": 8.403841018676758,
       "learning_rate": 1.6330140014738394e-05,
-      "loss": 0.0611,
       "step": 400
     },
     {
       "epoch": 1.193633952254642,
-      "grad_norm": 0.022825542837381363,
       "learning_rate": 1.5593220338983053e-05,
-      "loss": 0.0758,
       "step": 450
     },
     {
       "epoch": 1.3262599469496021,
-      "grad_norm": 97.80863952636719,
       "learning_rate": 1.485630066322771e-05,
-      "loss": 0.0747,
       "step": 500
     },
     {
       "epoch": 1.4588859416445623,
-      "grad_norm": 0.03205716982483864,
       "learning_rate": 1.4119380987472366e-05,
-      "loss": 0.0719,
       "step": 550
     },
     {
       "epoch": 1.5915119363395225,
-      "grad_norm": 13.893011093139648,
       "learning_rate": 1.3382461311717023e-05,
-      "loss": 0.1053,
       "step": 600
     },
     {
       "epoch": 1.7241379310344827,
-      "grad_norm": 0.03504275158047676,
       "learning_rate": 1.2645541635961683e-05,
-      "loss": 0.0494,
       "step": 650
     },
     {
       "epoch": 1.8567639257294428,
-      "grad_norm": 0.11265891045331955,
       "learning_rate": 1.190862196020634e-05,
-      "loss": 0.0142,
       "step": 700
     },
     {
       "epoch": 1.9893899204244032,
-      "grad_norm": 0.06097806990146637,
       "learning_rate": 1.1171702284450996e-05,
-      "loss": 0.048,
       "step": 750
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9784037558685446,
-      "eval_f1": 0.984778292521509,
-      "eval_loss": 0.17541147768497467,
-      "eval_precision": 0.9750982961992136,
       "eval_recall": 0.9946524064171123,
-      "eval_runtime": 65.725,
-      "eval_samples_per_second": 16.204,
-      "eval_steps_per_second": 1.019,
       "step": 754
     },
     {
       "epoch": 2.1220159151193636,
-      "grad_norm": 0.010624129325151443,
       "learning_rate": 1.0434782608695653e-05,
-      "loss": 0.0328,
       "step": 800
     },
     {
       "epoch": 2.2546419098143238,
-      "grad_norm": 0.009882211685180664,
       "learning_rate": 9.697862932940311e-06,
-      "loss": 0.0254,
       "step": 850
     },
     {
       "epoch": 2.387267904509284,
-      "grad_norm": 0.006466939579695463,
       "learning_rate": 8.960943257184968e-06,
-      "loss": 0.0412,
       "step": 900
     },
     {
       "epoch": 2.519893899204244,
-      "grad_norm": 0.025009147822856903,
       "learning_rate": 8.224023581429625e-06,
-      "loss": 0.0377,
       "step": 950
     },
     {
       "epoch": 2.6525198938992043,
-      "grad_norm": 16.0838565826416,
       "learning_rate": 7.487103905674282e-06,
-      "loss": 0.0263,
       "step": 1000
     },
     {
       "epoch": 2.7851458885941645,
-      "grad_norm": 0.006907904986292124,
       "learning_rate": 6.750184229918939e-06,
-      "loss": 0.0039,
       "step": 1050
     },
     {
       "epoch": 2.9177718832891246,
-      "grad_norm": 0.03146808221936226,
       "learning_rate": 6.013264554163597e-06,
-      "loss": 0.0266,
       "step": 1100
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9821596244131455,
-      "eval_f1": 0.9873248832555037,
-      "eval_loss": 0.12112097442150116,
-      "eval_precision": 0.9853528628495339,
       "eval_recall": 0.9893048128342246,
-      "eval_runtime": 65.4812,
-      "eval_samples_per_second": 16.264,
-      "eval_steps_per_second": 1.023,
       "step": 1131
     }
   ],
@@ -216,7 +216,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 639096753469440.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9899665551839465,
   "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-1131",
   "epoch": 3.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.13262599469496023,
+      "grad_norm": 6.313917636871338,
       "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6543,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
+      "grad_norm": 8.760651588439941,
       "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.3545,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
+      "grad_norm": 12.38838005065918,
       "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1951,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
+      "grad_norm": 13.237753868103027,
       "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1559,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
+      "grad_norm": 11.964133262634277,
       "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1602,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
+      "grad_norm": 27.106698989868164,
       "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1055,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
+      "grad_norm": 0.026046760380268097,
       "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.1148,
       "step": 350
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9774647887323944,
+      "eval_f1": 0.9838492597577388,
+      "eval_loss": 0.08887767791748047,
+      "eval_precision": 0.9905149051490515,
+      "eval_recall": 0.9772727272727273,
+      "eval_runtime": 62.9416,
+      "eval_samples_per_second": 16.92,
+      "eval_steps_per_second": 1.064,
       "step": 377
     },
     {
       "epoch": 1.0610079575596818,
+      "grad_norm": 0.028772667050361633,
       "learning_rate": 1.6330140014738394e-05,
+      "loss": 0.0809,
       "step": 400
     },
     {
       "epoch": 1.193633952254642,
+      "grad_norm": 0.056088343262672424,
       "learning_rate": 1.5593220338983053e-05,
+      "loss": 0.0649,
       "step": 450
     },
     {
       "epoch": 1.3262599469496021,
+      "grad_norm": 6.098559379577637,
       "learning_rate": 1.485630066322771e-05,
+      "loss": 0.0768,
       "step": 500
     },
     {
       "epoch": 1.4588859416445623,
+      "grad_norm": 99.54315948486328,
       "learning_rate": 1.4119380987472366e-05,
+      "loss": 0.0453,
       "step": 550
     },
     {
       "epoch": 1.5915119363395225,
+      "grad_norm": 6.803869247436523,
       "learning_rate": 1.3382461311717023e-05,
+      "loss": 0.1294,
       "step": 600
     },
     {
       "epoch": 1.7241379310344827,
+      "grad_norm": 0.2954126298427582,
       "learning_rate": 1.2645541635961683e-05,
+      "loss": 0.0839,
       "step": 650
     },
     {
       "epoch": 1.8567639257294428,
+      "grad_norm": 0.047186098992824554,
       "learning_rate": 1.190862196020634e-05,
+      "loss": 0.0557,
       "step": 700
     },
     {
       "epoch": 1.9893899204244032,
+      "grad_norm": 0.12770341336727142,
       "learning_rate": 1.1171702284450996e-05,
+      "loss": 0.0466,
       "step": 750
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9802816901408451,
+      "eval_f1": 0.986083499005964,
+      "eval_loss": 0.1403597742319107,
+      "eval_precision": 0.9776609724047306,
       "eval_recall": 0.9946524064171123,
+      "eval_runtime": 64.2771,
+      "eval_samples_per_second": 16.569,
+      "eval_steps_per_second": 1.042,
       "step": 754
     },
     {
       "epoch": 2.1220159151193636,
+      "grad_norm": 0.012713871896266937,
       "learning_rate": 1.0434782608695653e-05,
+      "loss": 0.0479,
       "step": 800
     },
     {
       "epoch": 2.2546419098143238,
+      "grad_norm": 0.013412756845355034,
       "learning_rate": 9.697862932940311e-06,
+      "loss": 0.0227,
       "step": 850
     },
     {
       "epoch": 2.387267904509284,
+      "grad_norm": 0.0069837020710110664,
       "learning_rate": 8.960943257184968e-06,
+      "loss": 0.024,
       "step": 900
     },
     {
       "epoch": 2.519893899204244,
+      "grad_norm": 0.006205807905644178,
       "learning_rate": 8.224023581429625e-06,
+      "loss": 0.0216,
       "step": 950
     },
     {
       "epoch": 2.6525198938992043,
+      "grad_norm": 0.013195905834436417,
       "learning_rate": 7.487103905674282e-06,
+      "loss": 0.0302,
       "step": 1000
     },
     {
       "epoch": 2.7851458885941645,
+      "grad_norm": 0.010757376439869404,
       "learning_rate": 6.750184229918939e-06,
+      "loss": 0.0021,
       "step": 1050
     },
     {
       "epoch": 2.9177718832891246,
+      "grad_norm": 25.593114852905273,
       "learning_rate": 6.013264554163597e-06,
+      "loss": 0.0222,
       "step": 1100
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9859154929577465,
+      "eval_f1": 0.9899665551839465,
+      "eval_loss": 0.0968979001045227,
+      "eval_precision": 0.9906291834002677,
       "eval_recall": 0.9893048128342246,
+      "eval_runtime": 62.8419,
+      "eval_samples_per_second": 16.947,
+      "eval_steps_per_second": 1.066,
       "step": 1131
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 628769644546560.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-1131/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:495a3cc45f1033c780ed08b02ec5466e255ca6a4bc480ecf9586486920684433
 size 5304

checkpoint-1508/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b30d84210b336753e94b844397015ae6635e4a978e6b132eaca6da156c50aead
 size 711449600

 version https://git-lfs.github.com/spec/v1
+oid sha256:e83f2f723e82f1966a8c36143d07eab2a1e2ee605a5f9037b01aee55dcf80a87
 size 711449600

checkpoint-1508/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9b811be240a41d4a804950f308a647956d67f40ae2709923fe949706ade9b7b
 size 1423014650

 version https://git-lfs.github.com/spec/v1
+oid sha256:fae5f2268ddbb577fba0afe39ecc58dafe67fe7c96fedb3ee8652afc0b77f68c
 size 1423014650

checkpoint-1508/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_metric": 0.9899665551839465,
-  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-1508",
   "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 1508,
@@ -10,260 +10,260 @@
   "log_history": [
     {
       "epoch": 0.13262599469496023,
-      "grad_norm": 8.819928169250488,
       "learning_rate": 6.622516556291392e-06,
-      "loss": 0.6464,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
-      "grad_norm": 6.598285675048828,
       "learning_rate": 1.3245033112582784e-05,
-      "loss": 0.388,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
-      "grad_norm": 0.30871227383613586,
       "learning_rate": 1.9867549668874173e-05,
-      "loss": 0.1931,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
-      "grad_norm": 6.666228294372559,
       "learning_rate": 1.9277818717759768e-05,
-      "loss": 0.1591,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
-      "grad_norm": 0.44178861379623413,
       "learning_rate": 1.8540899042004423e-05,
-      "loss": 0.1984,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
-      "grad_norm": 0.37462666630744934,
       "learning_rate": 1.780397936624908e-05,
-      "loss": 0.1124,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
-      "grad_norm": 0.0416572205722332,
       "learning_rate": 1.7067059690493736e-05,
-      "loss": 0.0809,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9812206572769953,
-      "eval_f1": 0.9865410497981157,
-      "eval_loss": 0.0956883653998375,
-      "eval_precision": 0.9932249322493225,
-      "eval_recall": 0.9799465240641712,
-      "eval_runtime": 60.5192,
-      "eval_samples_per_second": 17.598,
-      "eval_steps_per_second": 1.107,
       "step": 377
     },
     {
       "epoch": 1.0610079575596818,
-      "grad_norm": 8.403841018676758,
       "learning_rate": 1.6330140014738394e-05,
-      "loss": 0.0611,
       "step": 400
     },
     {
       "epoch": 1.193633952254642,
-      "grad_norm": 0.022825542837381363,
       "learning_rate": 1.5593220338983053e-05,
-      "loss": 0.0758,
       "step": 450
     },
     {
       "epoch": 1.3262599469496021,
-      "grad_norm": 97.80863952636719,
       "learning_rate": 1.485630066322771e-05,
-      "loss": 0.0747,
       "step": 500
     },
     {
       "epoch": 1.4588859416445623,
-      "grad_norm": 0.03205716982483864,
       "learning_rate": 1.4119380987472366e-05,
-      "loss": 0.0719,
       "step": 550
     },
     {
       "epoch": 1.5915119363395225,
-      "grad_norm": 13.893011093139648,
       "learning_rate": 1.3382461311717023e-05,
-      "loss": 0.1053,
       "step": 600
     },
     {
       "epoch": 1.7241379310344827,
-      "grad_norm": 0.03504275158047676,
       "learning_rate": 1.2645541635961683e-05,
-      "loss": 0.0494,
       "step": 650
     },
     {
       "epoch": 1.8567639257294428,
-      "grad_norm": 0.11265891045331955,
       "learning_rate": 1.190862196020634e-05,
-      "loss": 0.0142,
       "step": 700
     },
     {
       "epoch": 1.9893899204244032,
-      "grad_norm": 0.06097806990146637,
       "learning_rate": 1.1171702284450996e-05,
-      "loss": 0.048,
       "step": 750
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9784037558685446,
-      "eval_f1": 0.984778292521509,
-      "eval_loss": 0.17541147768497467,
-      "eval_precision": 0.9750982961992136,
       "eval_recall": 0.9946524064171123,
-      "eval_runtime": 65.725,
-      "eval_samples_per_second": 16.204,
-      "eval_steps_per_second": 1.019,
       "step": 754
     },
     {
       "epoch": 2.1220159151193636,
-      "grad_norm": 0.010624129325151443,
       "learning_rate": 1.0434782608695653e-05,
-      "loss": 0.0328,
       "step": 800
     },
     {
       "epoch": 2.2546419098143238,
-      "grad_norm": 0.009882211685180664,
       "learning_rate": 9.697862932940311e-06,
-      "loss": 0.0254,
       "step": 850
     },
     {
       "epoch": 2.387267904509284,
-      "grad_norm": 0.006466939579695463,
       "learning_rate": 8.960943257184968e-06,
-      "loss": 0.0412,
       "step": 900
     },
     {
       "epoch": 2.519893899204244,
-      "grad_norm": 0.025009147822856903,
       "learning_rate": 8.224023581429625e-06,
-      "loss": 0.0377,
       "step": 950
     },
     {
       "epoch": 2.6525198938992043,
-      "grad_norm": 16.0838565826416,
       "learning_rate": 7.487103905674282e-06,
-      "loss": 0.0263,
       "step": 1000
     },
     {
       "epoch": 2.7851458885941645,
-      "grad_norm": 0.006907904986292124,
       "learning_rate": 6.750184229918939e-06,
-      "loss": 0.0039,
       "step": 1050
     },
     {
       "epoch": 2.9177718832891246,
-      "grad_norm": 0.03146808221936226,
       "learning_rate": 6.013264554163597e-06,
-      "loss": 0.0266,
       "step": 1100
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9821596244131455,
-      "eval_f1": 0.9873248832555037,
-      "eval_loss": 0.12112097442150116,
-      "eval_precision": 0.9853528628495339,
       "eval_recall": 0.9893048128342246,
-      "eval_runtime": 65.4812,
-      "eval_samples_per_second": 16.264,
-      "eval_steps_per_second": 1.023,
       "step": 1131
     },
     {
       "epoch": 3.050397877984085,
-      "grad_norm": 0.00711169233545661,
       "learning_rate": 5.276344878408254e-06,
-      "loss": 0.0191,
       "step": 1150
     },
     {
       "epoch": 3.183023872679045,
-      "grad_norm": 0.10712441056966782,
       "learning_rate": 4.5394252026529115e-06,
-      "loss": 0.0079,
       "step": 1200
     },
     {
       "epoch": 3.315649867374005,
-      "grad_norm": 0.014097067527472973,
       "learning_rate": 3.8025055268975686e-06,
-      "loss": 0.0218,
       "step": 1250
     },
     {
       "epoch": 3.4482758620689653,
-      "grad_norm": 0.08094095438718796,
       "learning_rate": 3.065585851142226e-06,
-      "loss": 0.0053,
       "step": 1300
     },
     {
       "epoch": 3.5809018567639255,
-      "grad_norm": 0.012457519769668579,
       "learning_rate": 2.328666175386883e-06,
-      "loss": 0.0003,
       "step": 1350
     },
     {
       "epoch": 3.713527851458886,
-      "grad_norm": 0.05693735554814339,
       "learning_rate": 1.59174649963154e-06,
-      "loss": 0.0003,
       "step": 1400
     },
     {
       "epoch": 3.8461538461538463,
-      "grad_norm": 0.004445453640073538,
       "learning_rate": 8.548268238761975e-07,
-      "loss": 0.0246,
       "step": 1450
     },
     {
       "epoch": 3.9787798408488064,
-      "grad_norm": 0.004754351451992989,
       "learning_rate": 1.1790714812085484e-07,
-      "loss": 0.0111,
       "step": 1500
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9859154929577465,
-      "eval_f1": 0.9899665551839465,
-      "eval_loss": 0.10738077014684677,
-      "eval_precision": 0.9906291834002677,
-      "eval_recall": 0.9893048128342246,
-      "eval_runtime": 65.4731,
-      "eval_samples_per_second": 16.266,
-      "eval_steps_per_second": 1.023,
       "step": 1508
     }
   ],
@@ -284,7 +284,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 850572264215040.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.9899665551839465,
+  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-1131",
   "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 1508,
   "log_history": [
     {
       "epoch": 0.13262599469496023,
+      "grad_norm": 6.313917636871338,
       "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6543,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
+      "grad_norm": 8.760651588439941,
       "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.3545,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
+      "grad_norm": 12.38838005065918,
       "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1951,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
+      "grad_norm": 13.237753868103027,
       "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1559,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
+      "grad_norm": 11.964133262634277,
       "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1602,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
+      "grad_norm": 27.106698989868164,
       "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1055,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
+      "grad_norm": 0.026046760380268097,
       "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.1148,
       "step": 350
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9774647887323944,
+      "eval_f1": 0.9838492597577388,
+      "eval_loss": 0.08887767791748047,
+      "eval_precision": 0.9905149051490515,
+      "eval_recall": 0.9772727272727273,
+      "eval_runtime": 62.9416,
+      "eval_samples_per_second": 16.92,
+      "eval_steps_per_second": 1.064,
       "step": 377
     },
     {
       "epoch": 1.0610079575596818,
+      "grad_norm": 0.028772667050361633,
       "learning_rate": 1.6330140014738394e-05,
+      "loss": 0.0809,
       "step": 400
     },
     {
       "epoch": 1.193633952254642,
+      "grad_norm": 0.056088343262672424,
       "learning_rate": 1.5593220338983053e-05,
+      "loss": 0.0649,
       "step": 450
     },
     {
       "epoch": 1.3262599469496021,
+      "grad_norm": 6.098559379577637,
       "learning_rate": 1.485630066322771e-05,
+      "loss": 0.0768,
       "step": 500
     },
     {
       "epoch": 1.4588859416445623,
+      "grad_norm": 99.54315948486328,
       "learning_rate": 1.4119380987472366e-05,
+      "loss": 0.0453,
       "step": 550
     },
     {
       "epoch": 1.5915119363395225,
+      "grad_norm": 6.803869247436523,
       "learning_rate": 1.3382461311717023e-05,
+      "loss": 0.1294,
       "step": 600
     },
     {
       "epoch": 1.7241379310344827,
+      "grad_norm": 0.2954126298427582,
       "learning_rate": 1.2645541635961683e-05,
+      "loss": 0.0839,
       "step": 650
     },
     {
       "epoch": 1.8567639257294428,
+      "grad_norm": 0.047186098992824554,
       "learning_rate": 1.190862196020634e-05,
+      "loss": 0.0557,
       "step": 700
     },
     {
       "epoch": 1.9893899204244032,
+      "grad_norm": 0.12770341336727142,
       "learning_rate": 1.1171702284450996e-05,
+      "loss": 0.0466,
       "step": 750
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9802816901408451,
+      "eval_f1": 0.986083499005964,
+      "eval_loss": 0.1403597742319107,
+      "eval_precision": 0.9776609724047306,
       "eval_recall": 0.9946524064171123,
+      "eval_runtime": 64.2771,
+      "eval_samples_per_second": 16.569,
+      "eval_steps_per_second": 1.042,
       "step": 754
     },
     {
       "epoch": 2.1220159151193636,
+      "grad_norm": 0.012713871896266937,
       "learning_rate": 1.0434782608695653e-05,
+      "loss": 0.0479,
       "step": 800
     },
     {
       "epoch": 2.2546419098143238,
+      "grad_norm": 0.013412756845355034,
       "learning_rate": 9.697862932940311e-06,
+      "loss": 0.0227,
       "step": 850
     },
     {
       "epoch": 2.387267904509284,
+      "grad_norm": 0.0069837020710110664,
       "learning_rate": 8.960943257184968e-06,
+      "loss": 0.024,
       "step": 900
     },
     {
       "epoch": 2.519893899204244,
+      "grad_norm": 0.006205807905644178,
       "learning_rate": 8.224023581429625e-06,
+      "loss": 0.0216,
       "step": 950
     },
     {
       "epoch": 2.6525198938992043,
+      "grad_norm": 0.013195905834436417,
       "learning_rate": 7.487103905674282e-06,
+      "loss": 0.0302,
       "step": 1000
     },
     {
       "epoch": 2.7851458885941645,
+      "grad_norm": 0.010757376439869404,
       "learning_rate": 6.750184229918939e-06,
+      "loss": 0.0021,
       "step": 1050
     },
     {
       "epoch": 2.9177718832891246,
+      "grad_norm": 25.593114852905273,
       "learning_rate": 6.013264554163597e-06,
+      "loss": 0.0222,
       "step": 1100
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9859154929577465,
+      "eval_f1": 0.9899665551839465,
+      "eval_loss": 0.0968979001045227,
+      "eval_precision": 0.9906291834002677,
       "eval_recall": 0.9893048128342246,
+      "eval_runtime": 62.8419,
+      "eval_samples_per_second": 16.947,
+      "eval_steps_per_second": 1.066,
       "step": 1131
     },
     {
       "epoch": 3.050397877984085,
+      "grad_norm": 0.005515966564416885,
       "learning_rate": 5.276344878408254e-06,
+      "loss": 0.0211,
       "step": 1150
     },
     {
       "epoch": 3.183023872679045,
+      "grad_norm": 0.007331592496484518,
       "learning_rate": 4.5394252026529115e-06,
+      "loss": 0.0045,
       "step": 1200
     },
     {
       "epoch": 3.315649867374005,
+      "grad_norm": 0.0053366441279649734,
       "learning_rate": 3.8025055268975686e-06,
+      "loss": 0.0003,
       "step": 1250
     },
     {
       "epoch": 3.4482758620689653,
+      "grad_norm": 0.00485859764739871,
       "learning_rate": 3.065585851142226e-06,
+      "loss": 0.0056,
       "step": 1300
     },
     {
       "epoch": 3.5809018567639255,
+      "grad_norm": 0.005309904459863901,
       "learning_rate": 2.328666175386883e-06,
+      "loss": 0.0072,
       "step": 1350
     },
     {
       "epoch": 3.713527851458886,
+      "grad_norm": 0.003933363128453493,
       "learning_rate": 1.59174649963154e-06,
+      "loss": 0.005,
       "step": 1400
     },
     {
       "epoch": 3.8461538461538463,
+      "grad_norm": 0.0033942251466214657,
       "learning_rate": 8.548268238761975e-07,
+      "loss": 0.0002,
       "step": 1450
     },
     {
       "epoch": 3.9787798408488064,
+      "grad_norm": 0.0044485898688435555,
       "learning_rate": 1.1790714812085484e-07,
+      "loss": 0.0037,
       "step": 1500
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.984037558685446,
+      "eval_f1": 0.9886135298057601,
+      "eval_loss": 0.116817407310009,
+      "eval_precision": 0.9906040268456375,
+      "eval_recall": 0.9866310160427807,
+      "eval_runtime": 62.7013,
+      "eval_samples_per_second": 16.985,
+      "eval_steps_per_second": 1.069,
       "step": 1508
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 839587377653760.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-1508/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:495a3cc45f1033c780ed08b02ec5466e255ca6a4bc480ecf9586486920684433
 size 5304

checkpoint-377/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ded7c527bf4f9cf448e7a1f8c244f442ee35e8ddf0b77ce3ce54bb9f8e4ce263
 size 711449600

 version https://git-lfs.github.com/spec/v1
+oid sha256:88c901a19e6b36a140f7d29fba603543b97cd75e33362611614d8986e508beef
 size 711449600

checkpoint-377/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:155a5a5f11c545764eead711ae7536af829e153aa81aca1630679af82398d252
 size 1423014650

 version https://git-lfs.github.com/spec/v1
+oid sha256:80af33ce0ab52011f40575eac75a4c30cc4c58aacd2f7b923c777e87018db57c
 size 1423014650

checkpoint-377/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.9865410497981157,
   "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-377",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,63 +10,63 @@
   "log_history": [
     {
       "epoch": 0.13262599469496023,
-      "grad_norm": 8.819928169250488,
       "learning_rate": 6.622516556291392e-06,
-      "loss": 0.6464,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
-      "grad_norm": 6.598285675048828,
       "learning_rate": 1.3245033112582784e-05,
-      "loss": 0.388,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
-      "grad_norm": 0.30871227383613586,
       "learning_rate": 1.9867549668874173e-05,
-      "loss": 0.1931,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
-      "grad_norm": 6.666228294372559,
       "learning_rate": 1.9277818717759768e-05,
-      "loss": 0.1591,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
-      "grad_norm": 0.44178861379623413,
       "learning_rate": 1.8540899042004423e-05,
-      "loss": 0.1984,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
-      "grad_norm": 0.37462666630744934,
       "learning_rate": 1.780397936624908e-05,
-      "loss": 0.1124,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
-      "grad_norm": 0.0416572205722332,
       "learning_rate": 1.7067059690493736e-05,
-      "loss": 0.0809,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9812206572769953,
-      "eval_f1": 0.9865410497981157,
-      "eval_loss": 0.0956883653998375,
-      "eval_precision": 0.9932249322493225,
-      "eval_recall": 0.9799465240641712,
-      "eval_runtime": 60.5192,
-      "eval_samples_per_second": 17.598,
-      "eval_steps_per_second": 1.107,
       "step": 377
     }
   ],
@@ -87,7 +87,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 213580399188480.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9838492597577388,
   "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-377",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.13262599469496023,
+      "grad_norm": 6.313917636871338,
       "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6543,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
+      "grad_norm": 8.760651588439941,
       "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.3545,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
+      "grad_norm": 12.38838005065918,
       "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1951,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
+      "grad_norm": 13.237753868103027,
       "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1559,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
+      "grad_norm": 11.964133262634277,
       "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1602,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
+      "grad_norm": 27.106698989868164,
       "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1055,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
+      "grad_norm": 0.026046760380268097,
       "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.1148,
       "step": 350
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9774647887323944,
+      "eval_f1": 0.9838492597577388,
+      "eval_loss": 0.08887767791748047,
+      "eval_precision": 0.9905149051490515,
+      "eval_recall": 0.9772727272727273,
+      "eval_runtime": 62.9416,
+      "eval_samples_per_second": 16.92,
+      "eval_steps_per_second": 1.064,
       "step": 377
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 207660400442880.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-377/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:495a3cc45f1033c780ed08b02ec5466e255ca6a4bc480ecf9586486920684433
 size 5304

checkpoint-754/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abe96bf17c5ab694697666cdeed273085c6e509493dc0d2f29322ae07db9ad68
 size 711449600

 version https://git-lfs.github.com/spec/v1
+oid sha256:2dc75dfbec12aad2bf8a2060a9fdccaae09d8d8a4174df16224891cdaef4a061
 size 711449600

checkpoint-754/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44199bd2dbf22a5f947f048391a17d003c7e0d73ef60c43dffd44b21ea64cde3
 size 1423014650

 version https://git-lfs.github.com/spec/v1
+oid sha256:10b1cf27a5b28b159414ba7755016549a6483ac7dee7ad6c97641445afeaa50b
 size 1423014650

checkpoint-754/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.9865410497981157,
-  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-377",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 754,
@@ -10,131 +10,131 @@
   "log_history": [
     {
       "epoch": 0.13262599469496023,
-      "grad_norm": 8.819928169250488,
       "learning_rate": 6.622516556291392e-06,
-      "loss": 0.6464,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
-      "grad_norm": 6.598285675048828,
       "learning_rate": 1.3245033112582784e-05,
-      "loss": 0.388,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
-      "grad_norm": 0.30871227383613586,
       "learning_rate": 1.9867549668874173e-05,
-      "loss": 0.1931,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
-      "grad_norm": 6.666228294372559,
       "learning_rate": 1.9277818717759768e-05,
-      "loss": 0.1591,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
-      "grad_norm": 0.44178861379623413,
       "learning_rate": 1.8540899042004423e-05,
-      "loss": 0.1984,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
-      "grad_norm": 0.37462666630744934,
       "learning_rate": 1.780397936624908e-05,
-      "loss": 0.1124,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
-      "grad_norm": 0.0416572205722332,
       "learning_rate": 1.7067059690493736e-05,
-      "loss": 0.0809,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9812206572769953,
-      "eval_f1": 0.9865410497981157,
-      "eval_loss": 0.0956883653998375,
-      "eval_precision": 0.9932249322493225,
-      "eval_recall": 0.9799465240641712,
-      "eval_runtime": 60.5192,
-      "eval_samples_per_second": 17.598,
-      "eval_steps_per_second": 1.107,
       "step": 377
     },
     {
       "epoch": 1.0610079575596818,
-      "grad_norm": 8.403841018676758,
       "learning_rate": 1.6330140014738394e-05,
-      "loss": 0.0611,
       "step": 400
     },
     {
       "epoch": 1.193633952254642,
-      "grad_norm": 0.022825542837381363,
       "learning_rate": 1.5593220338983053e-05,
-      "loss": 0.0758,
       "step": 450
     },
     {
       "epoch": 1.3262599469496021,
-      "grad_norm": 97.80863952636719,
       "learning_rate": 1.485630066322771e-05,
-      "loss": 0.0747,
       "step": 500
     },
     {
       "epoch": 1.4588859416445623,
-      "grad_norm": 0.03205716982483864,
       "learning_rate": 1.4119380987472366e-05,
-      "loss": 0.0719,
       "step": 550
     },
     {
       "epoch": 1.5915119363395225,
-      "grad_norm": 13.893011093139648,
       "learning_rate": 1.3382461311717023e-05,
-      "loss": 0.1053,
       "step": 600
     },
     {
       "epoch": 1.7241379310344827,
-      "grad_norm": 0.03504275158047676,
       "learning_rate": 1.2645541635961683e-05,
-      "loss": 0.0494,
       "step": 650
     },
     {
       "epoch": 1.8567639257294428,
-      "grad_norm": 0.11265891045331955,
       "learning_rate": 1.190862196020634e-05,
-      "loss": 0.0142,
       "step": 700
     },
     {
       "epoch": 1.9893899204244032,
-      "grad_norm": 0.06097806990146637,
       "learning_rate": 1.1171702284450996e-05,
-      "loss": 0.048,
       "step": 750
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9784037558685446,
-      "eval_f1": 0.984778292521509,
-      "eval_loss": 0.17541147768497467,
-      "eval_precision": 0.9750982961992136,
       "eval_recall": 0.9946524064171123,
-      "eval_runtime": 65.725,
-      "eval_samples_per_second": 16.204,
-      "eval_steps_per_second": 1.019,
       "step": 754
     }
   ],
@@ -155,7 +155,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 427095020613120.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.986083499005964,
+  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-754",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 754,
   "log_history": [
     {
       "epoch": 0.13262599469496023,
+      "grad_norm": 6.313917636871338,
       "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6543,
       "step": 50
     },
     {
       "epoch": 0.26525198938992045,
+      "grad_norm": 8.760651588439941,
       "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.3545,
       "step": 100
     },
     {
       "epoch": 0.3978779840848806,
+      "grad_norm": 12.38838005065918,
       "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1951,
       "step": 150
     },
     {
       "epoch": 0.5305039787798409,
+      "grad_norm": 13.237753868103027,
       "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1559,
       "step": 200
     },
     {
       "epoch": 0.6631299734748011,
+      "grad_norm": 11.964133262634277,
       "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1602,
       "step": 250
     },
     {
       "epoch": 0.7957559681697612,
+      "grad_norm": 27.106698989868164,
       "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1055,
       "step": 300
     },
     {
       "epoch": 0.9283819628647215,
+      "grad_norm": 0.026046760380268097,
       "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.1148,
       "step": 350
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9774647887323944,
+      "eval_f1": 0.9838492597577388,
+      "eval_loss": 0.08887767791748047,
+      "eval_precision": 0.9905149051490515,
+      "eval_recall": 0.9772727272727273,
+      "eval_runtime": 62.9416,
+      "eval_samples_per_second": 16.92,
+      "eval_steps_per_second": 1.064,
       "step": 377
     },
     {
       "epoch": 1.0610079575596818,
+      "grad_norm": 0.028772667050361633,
       "learning_rate": 1.6330140014738394e-05,
+      "loss": 0.0809,
       "step": 400
     },
     {
       "epoch": 1.193633952254642,
+      "grad_norm": 0.056088343262672424,
       "learning_rate": 1.5593220338983053e-05,
+      "loss": 0.0649,
       "step": 450
     },
     {
       "epoch": 1.3262599469496021,
+      "grad_norm": 6.098559379577637,
       "learning_rate": 1.485630066322771e-05,
+      "loss": 0.0768,
       "step": 500
     },
     {
       "epoch": 1.4588859416445623,
+      "grad_norm": 99.54315948486328,
       "learning_rate": 1.4119380987472366e-05,
+      "loss": 0.0453,
       "step": 550
     },
     {
       "epoch": 1.5915119363395225,
+      "grad_norm": 6.803869247436523,
       "learning_rate": 1.3382461311717023e-05,
+      "loss": 0.1294,
       "step": 600
     },
     {
       "epoch": 1.7241379310344827,
+      "grad_norm": 0.2954126298427582,
       "learning_rate": 1.2645541635961683e-05,
+      "loss": 0.0839,
       "step": 650
     },
     {
       "epoch": 1.8567639257294428,
+      "grad_norm": 0.047186098992824554,
       "learning_rate": 1.190862196020634e-05,
+      "loss": 0.0557,
       "step": 700
     },
     {
       "epoch": 1.9893899204244032,
+      "grad_norm": 0.12770341336727142,
       "learning_rate": 1.1171702284450996e-05,
+      "loss": 0.0466,
       "step": 750
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9802816901408451,
+      "eval_f1": 0.986083499005964,
+      "eval_loss": 0.1403597742319107,
+      "eval_precision": 0.9776609724047306,
       "eval_recall": 0.9946524064171123,
+      "eval_runtime": 64.2771,
+      "eval_samples_per_second": 16.569,
+      "eval_steps_per_second": 1.042,
       "step": 754
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 417294133800960.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-754/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:495a3cc45f1033c780ed08b02ec5466e255ca6a4bc480ecf9586486920684433
 size 5304

metrics.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-  "eval_loss": 0.10738077014684677,
   "eval_accuracy": 0.9859154929577465,
   "eval_precision": 0.9906291834002677,
   "eval_recall": 0.9893048128342246,
   "eval_f1": 0.9899665551839465,
-  "eval_runtime": 64.2094,
-  "eval_samples_per_second": 16.586,
-  "eval_steps_per_second": 1.043,
   "epoch": 4.0
 }

 {
+  "eval_loss": 0.0968979001045227,
   "eval_accuracy": 0.9859154929577465,
   "eval_precision": 0.9906291834002677,
   "eval_recall": 0.9893048128342246,
   "eval_f1": 0.9899665551839465,
+  "eval_runtime": 62.9117,
+  "eval_samples_per_second": 16.928,
+  "eval_steps_per_second": 1.065,
   "epoch": 4.0
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b30d84210b336753e94b844397015ae6635e4a978e6b132eaca6da156c50aead
 size 711449600

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbfe56b9869f41724aeb21aff529b6fc717527dbece02e1d54b76e182981fe9d
 size 711449600

test_records.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_records.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:495a3cc45f1033c780ed08b02ec5466e255ca6a4bc480ecf9586486920684433
 size 5304