Second checkpoint

Files changed (5) hide show

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbd034a81014911eba6cc587d844217e43283fae64565fc82a62c92272b6d71e
 size 609389712

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddf4492601f1de7b3bbcd918e30af5b791b82a6881c4651142c1a89beb90880a
 size 609389712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afa1f305ca4d23ee4ce56f9cf8a80dde62dc3256b0ceb662670c68df3c10a999
 size 43127132

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddcff1d5bdbd8789dba1706a78bd01ddb67631093c37b89688236f340f238a00
 size 43127132

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d354efc7818d158473921845d6165d1f2bddfdc176ab543d9dd5af8aa56f8c75
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:46a442c3ca436aa6a10e4093e0aaf8d54298771a4565ad23c34571d316886c86
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22f19229a01f85f1c53c439ac373964673e8031baaac40ca774f85995ec5dc07
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:29ff92e07eb84e01189de138508ab139b01aad8541db4bc42c48d76d71ae0b56
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1261166579085654,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -79,6 +79,30 @@
       "learning_rate": 2.186973905723906e-05,
       "loss": 3.6035,
       "step": 600
     }
   ],
   "logging_steps": 50,
@@ -86,7 +110,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 1.4726209442584658e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.16815554387808723,
   "eval_steps": 500,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.186973905723906e-05,
       "loss": 3.6035,
       "step": 600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.160669191919192e-05,
+      "loss": 3.5998,
+      "step": 650
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.1343644781144782e-05,
+      "loss": 3.5809,
+      "step": 700
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.1080597643097644e-05,
+      "loss": 3.5888,
+      "step": 750
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.0817550505050505e-05,
+      "loss": 3.6076,
+      "step": 800
     }
   ],
   "logging_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 1.9644023431710966e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null