Model save

Browse files

Files changed (5) hide show

README.md +219 -0
config.json +18 -0
generation_config.json +4 -0
model.safetensors +3 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,219 @@

+---
+library_name: transformers
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: reverse_add_replicate_eval17_SGD
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# reverse_add_replicate_eval17_SGD
+This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.2622
+- Accuracy: 0.0
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 64
+- eval_batch_size: 64
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 128
+- optimizer: Use OptimizerNames.SGD and the args are:
+No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step  | Validation Loss | Accuracy |
+|:-------------:|:------:|:-----:|:---------------:|:--------:|
+| No log        | 0      | 0     | 2.7691          | 0.0      |
+| 5.4494        | 0.0064 | 100   | 2.7152          | 0.0      |
+| 5.1839        | 0.0128 | 200   | 2.5964          | 0.0      |
+| 5.0056        | 0.0192 | 300   | 2.4931          | 0.0      |
+| 4.885         | 0.0256 | 400   | 2.4403          | 0.0      |
+| 4.8339        | 0.032  | 500   | 2.4154          | 0.0      |
+| 4.7944        | 0.0384 | 600   | 2.4005          | 0.0      |
+| 4.7774        | 0.0448 | 700   | 2.3900          | 0.0      |
+| 4.7665        | 0.0512 | 800   | 2.3820          | 0.0      |
+| 4.7421        | 0.0576 | 900   | 2.3750          | 0.0      |
+| 4.7048        | 0.064  | 1000  | 2.3691          | 0.0      |
+| 4.697         | 0.0704 | 1100  | 2.3660          | 0.0      |
+| 4.6785        | 0.0768 | 1200  | 2.3630          | 0.0      |
+| 4.6977        | 0.0832 | 1300  | 2.3622          | 0.0      |
+| 4.6974        | 0.0896 | 1400  | 2.3597          | 0.0      |
+| 4.6926        | 0.096  | 1500  | 2.3576          | 0.0      |
+| 4.6554        | 0.1024 | 1600  | 2.3567          | 0.0      |
+| 4.6593        | 0.1088 | 1700  | 2.3558          | 0.0      |
+| 4.6801        | 0.1152 | 1800  | 2.3531          | 0.0      |
+| 4.6731        | 0.1216 | 1900  | 2.3548          | 0.0      |
+| 4.6353        | 0.128  | 2000  | 2.3534          | 0.0      |
+| 4.6868        | 0.1344 | 2100  | 2.3495          | 0.0      |
+| 4.6249        | 0.1408 | 2200  | 2.3482          | 0.0      |
+| 4.6446        | 0.1472 | 2300  | 2.3489          | 0.0      |
+| 4.6306        | 0.1536 | 2400  | 2.3479          | 0.0      |
+| 4.6054        | 0.16   | 2500  | 2.3452          | 0.0      |
+| 4.624         | 0.1664 | 2600  | 2.3504          | 0.0      |
+| 4.5921        | 0.1728 | 2700  | 2.3329          | 0.0      |
+| 4.6153        | 0.1792 | 2800  | 2.3307          | 0.0      |
+| 4.6157        | 0.1856 | 2900  | 2.3416          | 0.0      |
+| 4.5645        | 0.192  | 3000  | 2.3227          | 0.0      |
+| 4.6075        | 0.1984 | 3100  | 2.3395          | 0.0      |
+| 4.5375        | 0.2048 | 3200  | 2.3418          | 0.0      |
+| 4.6178        | 0.2112 | 3300  | 2.3424          | 0.0      |
+| 4.5216        | 0.2176 | 3400  | 2.3416          | 0.0      |
+| 4.5746        | 0.224  | 3500  | 2.3381          | 0.0      |
+| 4.5336        | 0.2304 | 3600  | 2.3375          | 0.0      |
+| 4.547         | 0.2368 | 3700  | 2.3349          | 0.0      |
+| 4.5464        | 0.2432 | 3800  | 2.3349          | 0.0      |
+| 4.4977        | 0.2496 | 3900  | 2.3332          | 0.0      |
+| 4.5392        | 0.256  | 4000  | 2.3337          | 0.0      |
+| 4.513         | 0.2624 | 4100  | 2.3350          | 0.0      |
+| 4.4875        | 0.2688 | 4200  | 2.3290          | 0.0      |
+| 4.4972        | 0.2752 | 4300  | 2.3291          | 0.0      |
+| 4.5155        | 0.2816 | 4400  | 2.3300          | 0.0      |
+| 4.5351        | 0.288  | 4500  | 2.3318          | 0.0      |
+| 4.4892        | 0.2944 | 4600  | 2.3293          | 0.0      |
+| 4.4802        | 0.3008 | 4700  | 2.3254          | 0.0      |
+| 4.4733        | 0.3072 | 4800  | 2.3244          | 0.0      |
+| 4.4911        | 0.3136 | 4900  | 2.3251          | 0.0      |
+| 4.5407        | 0.32   | 5000  | 2.3279          | 0.0      |
+| 4.4904        | 0.3264 | 5100  | 2.3242          | 0.0      |
+| 4.493         | 0.3328 | 5200  | 2.3250          | 0.0      |
+| 4.5019        | 0.3392 | 5300  | 2.3224          | 0.0      |
+| 4.4823        | 0.3456 | 5400  | 2.3221          | 0.0      |
+| 4.499         | 0.352  | 5500  | 2.3204          | 0.0      |
+| 4.4843        | 0.3584 | 5600  | 2.3230          | 0.0      |
+| 4.4303        | 0.3648 | 5700  | 2.3177          | 0.0      |
+| 4.4543        | 0.3712 | 5800  | 2.3194          | 0.0      |
+| 4.4788        | 0.3776 | 5900  | 2.3177          | 0.0      |
+| 4.4596        | 0.384  | 6000  | 2.3210          | 0.0      |
+| 4.473         | 0.3904 | 6100  | 2.3178          | 0.0      |
+| 4.4878        | 0.3968 | 6200  | 2.3177          | 0.0      |
+| 4.4657        | 0.4032 | 6300  | 2.3176          | 0.0      |
+| 4.4337        | 0.4096 | 6400  | 2.3166          | 0.0      |
+| 4.4561        | 0.416  | 6500  | 2.3163          | 0.0      |
+| 4.4499        | 0.4224 | 6600  | 2.3111          | 0.0      |
+| 4.4576        | 0.4288 | 6700  | 2.3124          | 0.0      |
+| 4.4695        | 0.4352 | 6800  | 2.3118          | 0.0      |
+| 4.4362        | 0.4416 | 6900  | 2.3128          | 0.0      |
+| 4.4915        | 0.448  | 7000  | 2.3129          | 0.0      |
+| 4.4859        | 0.4544 | 7100  | 2.3117          | 0.0      |
+| 4.4444        | 0.4608 | 7200  | 2.3122          | 0.0      |
+| 4.4622        | 0.4672 | 7300  | 2.3102          | 0.0      |
+| 4.4384        | 0.4736 | 7400  | 2.3078          | 0.0      |
+| 4.4817        | 0.48   | 7500  | 2.3081          | 0.0      |
+| 4.4351        | 0.4864 | 7600  | 2.3073          | 0.0      |
+| 4.4692        | 0.4928 | 7700  | 2.3072          | 0.0      |
+| 4.4338        | 0.4992 | 7800  | 2.3060          | 0.0      |
+| 4.4533        | 0.5056 | 7900  | 2.3040          | 0.0      |
+| 4.4304        | 0.512  | 8000  | 2.3022          | 0.0      |
+| 4.43          | 0.5184 | 8100  | 2.3036          | 0.0      |
+| 4.4574        | 0.5248 | 8200  | 2.3031          | 0.0      |
+| 4.4424        | 0.5312 | 8300  | 2.2999          | 0.0      |
+| 4.4323        | 0.5376 | 8400  | 2.2994          | 0.0      |
+| 4.4287        | 0.544  | 8500  | 2.3007          | 0.0      |
+| 4.4351        | 0.5504 | 8600  | 2.2986          | 0.0      |
+| 4.4318        | 0.5568 | 8700  | 2.2973          | 0.0      |
+| 4.4486        | 0.5632 | 8800  | 2.2950          | 0.0      |
+| 4.4073        | 0.5696 | 8900  | 2.3010          | 0.0      |
+| 4.4277        | 0.576  | 9000  | 2.2991          | 0.0      |
+| 4.4582        | 0.5824 | 9100  | 2.2930          | 0.0      |
+| 4.425         | 0.5888 | 9200  | 2.2926          | 0.0      |
+| 4.4047        | 0.5952 | 9300  | 2.2939          | 0.0      |
+| 4.4138        | 0.6016 | 9400  | 2.2911          | 0.0      |
+| 4.4093        | 0.608  | 9500  | 2.2888          | 0.0      |
+| 4.4299        | 0.6144 | 9600  | 2.2892          | 0.0      |
+| 4.4503        | 0.6208 | 9700  | 2.2907          | 0.0      |
+| 4.3764        | 0.6272 | 9800  | 2.2886          | 0.0      |
+| 4.4089        | 0.6336 | 9900  | 2.2889          | 0.0      |
+| 4.4211        | 0.64   | 10000 | 2.2566          | 0.0      |
+| 4.4144        | 0.6464 | 10100 | 2.2567          | 0.0      |
+| 4.4278        | 0.6528 | 10200 | 2.2562          | 0.0      |
+| 4.4275        | 0.6592 | 10300 | 2.2589          | 0.0      |
+| 4.4308        | 0.6656 | 10400 | 2.2559          | 0.0      |
+| 4.4059        | 0.672  | 10500 | 2.2835          | 0.0      |
+| 4.3932        | 0.6784 | 10600 | 2.2565          | 0.0      |
+| 4.4075        | 0.6848 | 10700 | 2.2777          | 0.0      |
+| 4.4198        | 0.6912 | 10800 | 2.2562          | 0.0      |
+| 4.3904        | 0.6976 | 10900 | 2.2547          | 0.0      |
+| 4.3908        | 0.704  | 11000 | 2.2581          | 0.0      |
+| 4.3996        | 0.7104 | 11100 | 2.2774          | 0.0      |
+| 4.4262        | 0.7168 | 11200 | 2.2544          | 0.0      |
+| 4.394         | 0.7232 | 11300 | 2.2794          | 0.0      |
+| 4.428         | 0.7296 | 11400 | 2.2585          | 0.0      |
+| 4.3875        | 0.736  | 11500 | 2.2762          | 0.0      |
+| 4.437         | 0.7424 | 11600 | 2.2712          | 0.0      |
+| 4.3913        | 0.7488 | 11700 | 2.2695          | 0.0      |
+| 4.4303        | 0.7552 | 11800 | 2.2669          | 0.0      |
+| 4.4371        | 0.7616 | 11900 | 2.2770          | 0.0      |
+| 4.378         | 0.768  | 12000 | 2.2546          | 0.0      |
+| 4.4106        | 0.7744 | 12100 | 2.2574          | 0.0      |
+| 4.4059        | 0.7808 | 12200 | 2.2535          | 0.0      |
+| 4.3792        | 0.7872 | 12300 | 2.2561          | 0.0      |
+| 4.3947        | 0.7936 | 12400 | 2.2754          | 0.0      |
+| 4.3919        | 0.8    | 12500 | 2.2606          | 0.0      |
+| 4.411         | 0.8064 | 12600 | 2.2588          | 0.0      |
+| 4.3894        | 0.8128 | 12700 | 2.2556          | 0.0      |
+| 4.3798        | 0.8192 | 12800 | 2.2741          | 0.0      |
+| 4.4251        | 0.8256 | 12900 | 2.2606          | 0.0      |
+| 4.4183        | 0.832  | 13000 | 2.2710          | 0.0      |
+| 4.4031        | 0.8384 | 13100 | 2.2684          | 0.0      |
+| 4.3694        | 0.8448 | 13200 | 2.2590          | 0.0      |
+| 4.3984        | 0.8512 | 13300 | 2.2646          | 0.0      |
+| 4.4177        | 0.8576 | 13400 | 2.2571          | 0.0      |
+| 4.4154        | 0.864  | 13500 | 2.2649          | 0.0      |
+| 4.4325        | 0.8704 | 13600 | 2.2569          | 0.0      |
+| 4.3561        | 0.8768 | 13700 | 2.2592          | 0.0      |
+| 4.3989        | 0.8832 | 13800 | 2.2589          | 0.0      |
+| 4.4002        | 0.8896 | 13900 | 2.2639          | 0.0      |
+| 4.3847        | 0.896  | 14000 | 2.2625          | 0.0      |
+| 4.3902        | 0.9024 | 14100 | 2.2636          | 0.0      |
+| 4.3979        | 0.9088 | 14200 | 2.2631          | 0.0      |
+| 4.4114        | 0.9152 | 14300 | 2.2626          | 0.0      |
+| 4.4233        | 0.9216 | 14400 | 2.2650          | 0.0      |
+| 4.3873        | 0.928  | 14500 | 2.2593          | 0.0      |
+| 4.4271        | 0.9344 | 14600 | 2.2635          | 0.0      |
+| 4.4229        | 0.9408 | 14700 | 2.2598          | 0.0      |
+| 4.3721        | 0.9472 | 14800 | 2.2585          | 0.0      |
+| 4.3747        | 0.9536 | 14900 | 2.2606          | 0.0      |
+| 4.3799        | 0.96   | 15000 | 2.2623          | 0.0      |
+| 4.3857        | 0.9664 | 15100 | 2.2619          | 0.0      |
+| 4.3924        | 0.9728 | 15200 | 2.2616          | 0.0      |
+| 4.436         | 0.9792 | 15300 | 2.2619          | 0.0      |
+| 4.3814        | 0.9856 | 15400 | 2.2623          | 0.0      |
+| 4.3996        | 0.992  | 15500 | 2.2622          | 0.0      |
+| 4.4039        | 0.9984 | 15600 | 2.2622          | 0.0      |
+### Framework versions
+- Transformers 4.46.0
+- Pytorch 2.5.1
+- Datasets 3.1.0
+- Tokenizers 0.20.1

config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "architectures": [
+    "NanoGPT"
+  ],
+  "bias": true,
+  "block_size": 256,
+  "dropout": 0.0,
+  "model_type": "nanogpt",
+  "n_embd": 384,
+  "n_head": 6,
+  "n_layer": 6,
+  "nonlinearity": "RELU",
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.0",
+  "use_NoPE": true,
+  "use_layernorm": true,
+  "vocab_size": 14
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.46.0"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f459e85c3e2d8feb70e37c851e23c0d61d1380c872402cdd43959dc6e77de781
+size 42640744

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3030ed581aa78f46e2b627f5d6dab121b4e8c3b6cabe4f97f7aab7ebdd06a7a7
+size 5240