subsectmusic
/

qwriko-420-checkpoint-100

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.3333333333333333,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013333333333333334,
+      "grad_norm": 0.8440026640892029,
+      "learning_rate": 0.0,
+      "loss": 2.0703,
+      "step": 1
+    },
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 0.8205575346946716,
+      "learning_rate": 4e-05,
+      "loss": 1.7615,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.8870009779930115,
+      "learning_rate": 8e-05,
+      "loss": 1.7709,
+      "step": 3
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 0.8464481234550476,
+      "learning_rate": 0.00012,
+      "loss": 1.6095,
+      "step": 4
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 0.9339048862457275,
+      "learning_rate": 0.00016,
+      "loss": 1.7009,
+      "step": 5
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.8801436424255371,
+      "learning_rate": 0.0002,
+      "loss": 1.7275,
+      "step": 6
+    },
+    {
+      "epoch": 0.09333333333333334,
+      "grad_norm": 0.8814226388931274,
+      "learning_rate": 0.00019994532573409262,
+      "loss": 1.7187,
+      "step": 7
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 0.9567201733589172,
+      "learning_rate": 0.00019978136272187747,
+      "loss": 1.5729,
+      "step": 8
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.9291136860847473,
+      "learning_rate": 0.00019950829025450114,
+      "loss": 1.7834,
+      "step": 9
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 0.8355920314788818,
+      "learning_rate": 0.00019912640693269752,
+      "loss": 1.6865,
+      "step": 10
+    },
+    {
+      "epoch": 0.14666666666666667,
+      "grad_norm": 0.9413231015205383,
+      "learning_rate": 0.00019863613034027224,
+      "loss": 1.67,
+      "step": 11
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.9365332126617432,
+      "learning_rate": 0.00019803799658748094,
+      "loss": 1.7805,
+      "step": 12
+    },
+    {
+      "epoch": 0.17333333333333334,
+      "grad_norm": 0.8937055468559265,
+      "learning_rate": 0.0001973326597248006,
+      "loss": 1.7198,
+      "step": 13
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 0.9279404878616333,
+      "learning_rate": 0.00019652089102773488,
+      "loss": 1.5964,
+      "step": 14
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.9140329360961914,
+      "learning_rate": 0.00019560357815343577,
+      "loss": 1.5523,
+      "step": 15
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 1.0546398162841797,
+      "learning_rate": 0.00019458172417006347,
+      "loss": 1.4866,
+      "step": 16
+    },
+    {
+      "epoch": 0.22666666666666666,
+      "grad_norm": 1.0071226358413696,
+      "learning_rate": 0.0001934564464599461,
+      "loss": 1.3565,
+      "step": 17
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.9773914813995361,
+      "learning_rate": 0.00019222897549773848,
+      "loss": 1.3755,
+      "step": 18
+    },
+    {
+      "epoch": 0.25333333333333335,
+      "grad_norm": 1.1147329807281494,
+      "learning_rate": 0.00019090065350491626,
+      "loss": 1.5884,
+      "step": 19
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 1.0253920555114746,
+      "learning_rate": 0.00018947293298207635,
+      "loss": 1.4291,
+      "step": 20
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.0929694175720215,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 1.8566,
+      "step": 21
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 1.0458513498306274,
+      "learning_rate": 0.00018632564809575742,
+      "loss": 1.4776,
+      "step": 22
+    },
+    {
+      "epoch": 0.30666666666666664,
+      "grad_norm": 1.2224355936050415,
+      "learning_rate": 0.00018460952524209355,
+      "loss": 1.4635,
+      "step": 23
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.1089707612991333,
+      "learning_rate": 0.00018280088311480201,
+      "loss": 1.3369,
+      "step": 24
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 1.172438383102417,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.492,
+      "step": 25
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 1.062111258506775,
+      "learning_rate": 0.00017891405093963938,
+      "loss": 1.4319,
+      "step": 26
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.178992748260498,
+      "learning_rate": 0.00017684011108568592,
+      "loss": 1.5821,
+      "step": 27
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 1.0926856994628906,
+      "learning_rate": 0.0001746821476984154,
+      "loss": 1.6889,
+      "step": 28
+    },
+    {
+      "epoch": 0.38666666666666666,
+      "grad_norm": 1.0912868976593018,
+      "learning_rate": 0.00017244252047910892,
+      "loss": 1.7892,
+      "step": 29
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.0745105743408203,
+      "learning_rate": 0.00017012367842724887,
+      "loss": 1.6463,
+      "step": 30
+    },
+    {
+      "epoch": 0.41333333333333333,
+      "grad_norm": 1.1378589868545532,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 1.6541,
+      "step": 31
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 1.1313064098358154,
+      "learning_rate": 0.00016525857615241687,
+      "loss": 1.6786,
+      "step": 32
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.1693713665008545,
+      "learning_rate": 0.0001627176358473537,
+      "loss": 1.4162,
+      "step": 33
+    },
+    {
+      "epoch": 0.4533333333333333,
+      "grad_norm": 1.1788471937179565,
+      "learning_rate": 0.00016010811472830252,
+      "loss": 1.4484,
+      "step": 34
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 1.2727031707763672,
+      "learning_rate": 0.00015743286626829437,
+      "loss": 1.6479,
+      "step": 35
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.1873282194137573,
+      "learning_rate": 0.00015469481581224272,
+      "loss": 1.153,
+      "step": 36
+    },
+    {
+      "epoch": 0.49333333333333335,
+      "grad_norm": 1.2361260652542114,
+      "learning_rate": 0.00015189695737812152,
+      "loss": 1.1911,
+      "step": 37
+    },
+    {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 1.1538161039352417,
+      "learning_rate": 0.00014904235038305083,
+      "loss": 1.3722,
+      "step": 38
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.2298163175582886,
+      "learning_rate": 0.0001461341162978688,
+      "loss": 1.6578,
+      "step": 39
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 1.2842562198638916,
+      "learning_rate": 0.00014317543523384928,
+      "loss": 1.488,
+      "step": 40
+    },
+    {
+      "epoch": 0.5466666666666666,
+      "grad_norm": 1.2733633518218994,
+      "learning_rate": 0.00014016954246529696,
+      "loss": 1.7913,
+      "step": 41
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.306769847869873,
+      "learning_rate": 0.00013711972489182208,
+      "loss": 1.4581,
+      "step": 42
+    },
+    {
+      "epoch": 0.5733333333333334,
+      "grad_norm": 1.3530184030532837,
+      "learning_rate": 0.00013402931744416433,
+      "loss": 1.5364,
+      "step": 43
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": 1.2467401027679443,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 1.6921,
+      "step": 44
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.2064480781555176,
+      "learning_rate": 0.00012774029087618446,
+      "loss": 1.5215,
+      "step": 45
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 1.3085877895355225,
+      "learning_rate": 0.00012454854871407994,
+      "loss": 1.732,
+      "step": 46
+    },
+    {
+      "epoch": 0.6266666666666667,
+      "grad_norm": 1.306090235710144,
+      "learning_rate": 0.0001213299630743747,
+      "loss": 1.4149,
+      "step": 47
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.277496337890625,
+      "learning_rate": 0.000118088053433211,
+      "loss": 1.6538,
+      "step": 48
+    },
+    {
+      "epoch": 0.6533333333333333,
+      "grad_norm": 1.3178523778915405,
+      "learning_rate": 0.0001148263647711842,
+      "loss": 1.6022,
+      "step": 49
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.2071044445037842,
+      "learning_rate": 0.00011154846369695863,
+      "loss": 1.918,
+      "step": 50
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.3383886814117432,
+      "learning_rate": 0.00010825793454723325,
+      "loss": 1.5421,
+      "step": 51
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": 1.2876945734024048,
+      "learning_rate": 0.00010495837546732224,
+      "loss": 1.5687,
+      "step": 52
+    },
+    {
+      "epoch": 0.7066666666666667,
+      "grad_norm": 1.18553626537323,
+      "learning_rate": 0.00010165339447663587,
+      "loss": 1.6069,
+      "step": 53
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.2010143995285034,
+      "learning_rate": 9.834660552336415e-05,
+      "loss": 1.679,
+      "step": 54
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 1.2488950490951538,
+      "learning_rate": 9.504162453267777e-05,
+      "loss": 1.6771,
+      "step": 55
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": 1.250627875328064,
+      "learning_rate": 9.174206545276677e-05,
+      "loss": 1.824,
+      "step": 56
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.2688724994659424,
+      "learning_rate": 8.845153630304139e-05,
+      "loss": 1.4831,
+      "step": 57
+    },
+    {
+      "epoch": 0.7733333333333333,
+      "grad_norm": 1.2856069803237915,
+      "learning_rate": 8.517363522881579e-05,
+      "loss": 1.8211,
+      "step": 58
+    },
+    {
+      "epoch": 0.7866666666666666,
+      "grad_norm": 1.2304469347000122,
+      "learning_rate": 8.191194656678904e-05,
+      "loss": 1.7463,
+      "step": 59
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.1906541585922241,
+      "learning_rate": 7.867003692562534e-05,
+      "loss": 1.6181,
+      "step": 60
+    },
+    {
+      "epoch": 0.8133333333333334,
+      "grad_norm": 1.255319356918335,
+      "learning_rate": 7.54514512859201e-05,
+      "loss": 1.5103,
+      "step": 61
+    },
+    {
+      "epoch": 0.8266666666666667,
+      "grad_norm": 1.2759405374526978,
+      "learning_rate": 7.225970912381556e-05,
+      "loss": 1.7434,
+      "step": 62
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.367226481437683,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.6471,
+      "step": 63
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 1.2023500204086304,
+      "learning_rate": 6.59706825558357e-05,
+      "loss": 1.4471,
+      "step": 64
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 1.2866662740707397,
+      "learning_rate": 6.28802751081779e-05,
+      "loss": 1.8365,
+      "step": 65
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.2443156242370605,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 1.5014,
+      "step": 66
+    },
+    {
+      "epoch": 0.8933333333333333,
+      "grad_norm": 1.27727472782135,
+      "learning_rate": 5.6824564766150726e-05,
+      "loss": 1.5796,
+      "step": 67
+    },
+    {
+      "epoch": 0.9066666666666666,
+      "grad_norm": 1.3078596591949463,
+      "learning_rate": 5.386588370213124e-05,
+      "loss": 1.6415,
+      "step": 68
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.360992670059204,
+      "learning_rate": 5.095764961694922e-05,
+      "loss": 1.7043,
+      "step": 69
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 1.109791874885559,
+      "learning_rate": 4.810304262187852e-05,
+      "loss": 1.9472,
+      "step": 70
+    },
+    {
+      "epoch": 0.9466666666666667,
+      "grad_norm": 1.3488279581069946,
+      "learning_rate": 4.530518418775733e-05,
+      "loss": 1.485,
+      "step": 71
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.227574348449707,
+      "learning_rate": 4.256713373170564e-05,
+      "loss": 1.5947,
+      "step": 72
+    },
+    {
+      "epoch": 0.9733333333333334,
+      "grad_norm": 1.1044386625289917,
+      "learning_rate": 3.9891885271697496e-05,
+      "loss": 1.7053,
+      "step": 73
+    },
+    {
+      "epoch": 0.9866666666666667,
+      "grad_norm": 1.2621186971664429,
+      "learning_rate": 3.7282364152646297e-05,
+      "loss": 1.5852,
+      "step": 74
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.3646624088287354,
+      "learning_rate": 3.4741423847583134e-05,
+      "loss": 1.7227,
+      "step": 75
+    },
+    {
+      "epoch": 1.0133333333333334,
+      "grad_norm": 1.208559513092041,
+      "learning_rate": 3.227184283742591e-05,
+      "loss": 1.3371,
+      "step": 76
+    },
+    {
+      "epoch": 1.0266666666666666,
+      "grad_norm": 1.1699467897415161,
+      "learning_rate": 2.9876321572751144e-05,
+      "loss": 1.3344,
+      "step": 77
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 1.101700782775879,
+      "learning_rate": 2.7557479520891104e-05,
+      "loss": 1.4425,
+      "step": 78
+    },
+    {
+      "epoch": 1.0533333333333332,
+      "grad_norm": 1.125812292098999,
+      "learning_rate": 2.5317852301584643e-05,
+      "loss": 1.2204,
+      "step": 79
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 1.1652486324310303,
+      "learning_rate": 2.315988891431412e-05,
+      "loss": 1.2765,
+      "step": 80
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 1.0551825761795044,
+      "learning_rate": 2.1085949060360654e-05,
+      "loss": 1.0202,
+      "step": 81
+    },
+    {
+      "epoch": 1.0933333333333333,
+      "grad_norm": 1.2187154293060303,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 1.3722,
+      "step": 82
+    },
+    {
+      "epoch": 1.1066666666666667,
+      "grad_norm": 1.1256279945373535,
+      "learning_rate": 1.7199116885197995e-05,
+      "loss": 1.3276,
+      "step": 83
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 1.089321494102478,
+      "learning_rate": 1.5390474757906446e-05,
+      "loss": 1.1561,
+      "step": 84
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "grad_norm": 1.1937209367752075,
+      "learning_rate": 1.3674351904242611e-05,
+      "loss": 1.2608,
+      "step": 85
+    },
+    {
+      "epoch": 1.1466666666666667,
+      "grad_norm": 1.0680181980133057,
+      "learning_rate": 1.2052624879351104e-05,
+      "loss": 1.2302,
+      "step": 86
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 1.1529444456100464,
+      "learning_rate": 1.0527067017923654e-05,
+      "loss": 1.2923,
+      "step": 87
+    },
+    {
+      "epoch": 1.1733333333333333,
+      "grad_norm": 1.1063073873519897,
+      "learning_rate": 9.09934649508375e-06,
+      "loss": 1.2624,
+      "step": 88
+    },
+    {
+      "epoch": 1.1866666666666668,
+      "grad_norm": 1.1068354845046997,
+      "learning_rate": 7.771024502261526e-06,
+      "loss": 1.1488,
+      "step": 89
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 1.1118688583374023,
+      "learning_rate": 6.543553540053926e-06,
+      "loss": 1.1415,
+      "step": 90
+    },
+    {
+      "epoch": 1.2133333333333334,
+      "grad_norm": 1.250420093536377,
+      "learning_rate": 5.418275829936537e-06,
+      "loss": 1.3396,
+      "step": 91
+    },
+    {
+      "epoch": 1.2266666666666666,
+      "grad_norm": 1.195170283317566,
+      "learning_rate": 4.3964218465642355e-06,
+      "loss": 1.2185,
+      "step": 92
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 1.1890268325805664,
+      "learning_rate": 3.4791089722651436e-06,
+      "loss": 1.12,
+      "step": 93
+    },
+    {
+      "epoch": 1.2533333333333334,
+      "grad_norm": 1.1417518854141235,
+      "learning_rate": 2.667340275199426e-06,
+      "loss": 1.0968,
+      "step": 94
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "grad_norm": 1.2035924196243286,
+      "learning_rate": 1.9620034125190644e-06,
+      "loss": 1.1366,
+      "step": 95
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 1.2221871614456177,
+      "learning_rate": 1.3638696597277679e-06,
+      "loss": 0.9526,
+      "step": 96
+    },
+    {
+      "epoch": 1.2933333333333334,
+      "grad_norm": 1.0615272521972656,
+      "learning_rate": 8.735930673024806e-07,
+      "loss": 1.4847,
+      "step": 97
+    },
+    {
+      "epoch": 1.3066666666666666,
+      "grad_norm": 1.2646980285644531,
+      "learning_rate": 4.917097454988584e-07,
+      "loss": 1.2585,
+      "step": 98
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 1.1021074056625366,
+      "learning_rate": 2.1863727812254653e-07,
+      "loss": 1.4376,
+      "step": 99
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 1.1673988103866577,
+      "learning_rate": 5.467426590739511e-08,
+      "loss": 1.0331,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2670084862083072.0,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}