lewtun
/

gemma-7b-dpo-full-openhermes-mix1-beta-0.01

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Model card Files Files and versions

gemma-7b-dpo-full-openhermes-mix1-beta-0.01 / all_results.json

lewtun's picture

lewtun HF Staff

End of training

93c001e verified almost 2 years ago

history blame contribute delete

739 Bytes

	{
	"epoch": 0.99,
	"eval_logits/chosen": 85.92010498046875,
	"eval_logits/rejected": 78.73693084716797,
	"eval_logps/chosen": -710.1602172851562,
	"eval_logps/rejected": -827.8626098632812,
	"eval_loss": 0.4769742786884308,
	"eval_rewards/accuracies": 0.7083333134651184,
	"eval_rewards/chosen": 0.8210906982421875,
	"eval_rewards/margins": 1.0284124612808228,
	"eval_rewards/rejected": -0.20732170343399048,
	"eval_runtime": 54.5772,
	"eval_samples": 750,
	"eval_samples_per_second": 13.742,
	"eval_steps_per_second": 0.44,
	"train_loss": 0.5449507053081806,
	"train_runtime": 579.8166,
	"train_samples": 6750,
	"train_samples_per_second": 11.642,
	"train_steps_per_second": 0.09
	}