SetFit with JohanHeinsen/Old_News_Segmentation_SBERT_V0.1

This is a SetFit model that can be used for Text Classification. This SetFit model uses JohanHeinsen/Old_News_Segmentation_SBERT_V0.1 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
0
  • '3) J Anledning af en Skilsmissesag udbedes Oplysning hertil om hvor Bagersvend Christian Meyer for Tiden opholder sig. Han er født paa Sams, 34 Aar gl., middel af Højde og spinkel, har mørkeblondt Haar og Kindskjægog brune Øjne. (H. St.)'
  • '3) Arbejdsmand August Hepper, f. d. 3/3 1850 i Schlesien, temmelig høj og godt bygget, mørkt Haar og Overskjæg, mulig iført brungraa Jakke, Buxer og Vest, samt sort Hat, sigtes for Tyveri. Han gaaer rimeligt under falskt Navn, muligvisWentzel. Anh. til K. A. søndre Birk.'
  • '5) Slagtersvend Jacob Peter Lydolf, ca. 25 Aar gl., født i Stubbekjøbing, modtog den 9de d. M. en Ko af Gjæstgiver Frits Johansen, i Skaaruper og forpligtede sig til at betale den med 38 Rd., nemlig 34 Rd. Lørdagen den 14de. d. M. paa Værtshusholder Bertelsens Bopæl i Svendborg og 4 Rd. i Løbet af 8 eller 14 Dage. Da Johansen den 14de indfandt sig hos Bertelsen, erfarede han paa Politikammeret, at Lydolf den 11te var viseret til Veile. Lydolf, som er temmelig fordrukken og forslagen, bedes afhørt og efter Omstændighederne anholdt samt Underretning meddelt Sunds-Gudme Herreders Kontor i Svendborg.'
1
  • '6) Et Fruentimmer, 28 a 30 Aar gl., af almindelig Højde og Bygning, formentlig frugtsommelig, blondt Haar, der stritter frem i Panden, iført sort ulden Kjole, gamle Fjederstøvler og graat uldent Shavl med 1 1/2 Kvarter bred Bort, sort Fløjls Hat med mørkerød Fløjls Blomst, sorte Atlaskes Hagebaand, der vare knyttede ned om Hagen, hvid Blonde paa Kjoleærmet ved Haanden og paa det ene Haandled et Stenkuls Armbaand, sigtes for Boutikstyveri. (St. 3.)'
  • 'Efterlysninger. Et Fruentimmer fra Lidemark ved Navn'
  • '3) Et Fruentimmer, c. 40 Aar gl., temmelig høj, spinkel bygget, langagtigt, magert Ansigt, mørkt Haar og mørk Teint, iført graat Shavl, chocoladebrun Kjole og sort Kyse, sigtes forFalsk og Bedrageri. (St. 5, 61.)'

Evaluation

Metrics

Label Accuracy F1 Precision Recall
all 0.98 0.9371 0.9437 0.9306

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("setfit_model_id")
# Run inference
preds = model("2) En Mandsperson, 19-24 Aar gl., lidt under Middelhøide, blond, uden Skjæg, rødmusset, sort Klædesfrakke og sort, flad Kaskjet, – sigtes for Tyveriet Nr. 765. (II).")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 7 56.6019 1181
Label Training Sample Count
0 861
1 189

Training Hyperparameters

  • batch_size: (24, 24)
  • num_epochs: (1, 1)
  • max_steps: -1
  • sampling_strategy: oversampling
  • num_iterations: 44
  • body_learning_rate: (2e-05, 2e-05)
  • head_learning_rate: 2e-05
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • eval_max_steps: -1
  • load_best_model_at_end: False

Training Results

Epoch Step Training Loss Validation Loss
0.0003 1 0.2644 -
0.0130 50 0.2902 -
0.0260 100 0.1297 -
0.0390 150 0.0355 -
0.0519 200 0.02 -
0.0649 250 0.0086 -
0.0779 300 0.0039 -
0.0909 350 0.0024 -
0.1039 400 0.0019 -
0.1169 450 0.0007 -
0.1299 500 0.0001 -
0.1429 550 0.0001 -
0.1558 600 0.0001 -
0.1688 650 0.0001 -
0.1818 700 0.0001 -
0.1948 750 0.0 -
0.2078 800 0.0 -
0.2208 850 0.0 -
0.2338 900 0.0 -
0.2468 950 0.0 -
0.2597 1000 0.0 -
0.2727 1050 0.0 -
0.2857 1100 0.0 -
0.2987 1150 0.0 -
0.3117 1200 0.0 -
0.3247 1250 0.0 -
0.3377 1300 0.0 -
0.3506 1350 0.0 -
0.3636 1400 0.0 -
0.3766 1450 0.0 -
0.3896 1500 0.0 -
0.4026 1550 0.0 -
0.4156 1600 0.0 -
0.4286 1650 0.0 -
0.4416 1700 0.0 -
0.4545 1750 0.0 -
0.4675 1800 0.0 -
0.4805 1850 0.0 -
0.4935 1900 0.0 -
0.5065 1950 0.0 -
0.5195 2000 0.0 -
0.5325 2050 0.0 -
0.5455 2100 0.0 -
0.5584 2150 0.0 -
0.5714 2200 0.0 -
0.5844 2250 0.0 -
0.5974 2300 0.0 -
0.6104 2350 0.0 -
0.6234 2400 0.0 -
0.6364 2450 0.0 -
0.6494 2500 0.0 -
0.6623 2550 0.0 -
0.6753 2600 0.0 -
0.6883 2650 0.0 -
0.7013 2700 0.0 -
0.7143 2750 0.0 -
0.7273 2800 0.0 -
0.7403 2850 0.0 -
0.7532 2900 0.0 -
0.7662 2950 0.0 -
0.7792 3000 0.0 -
0.7922 3050 0.0 -
0.8052 3100 0.0 -
0.8182 3150 0.0 -
0.8312 3200 0.0 -
0.8442 3250 0.0 -
0.8571 3300 0.0 -
0.8701 3350 0.0 -
0.8831 3400 0.0 -
0.8961 3450 0.0 -
0.9091 3500 0.0 -
0.9221 3550 0.0 -
0.9351 3600 0.0 -
0.9481 3650 0.0 -
0.9610 3700 0.0 -
0.9740 3750 0.0 -
0.9870 3800 0.0 -
1.0 3850 0.0 -

Framework Versions

  • Python: 3.11.12
  • SetFit: 1.1.3
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.7.0
  • Datasets: 2.19.2
  • Tokenizers: 0.21.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}
Downloads last month
1
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for JohanHeinsen/PE_efterlyst_gender

Paper for JohanHeinsen/PE_efterlyst_gender

Evaluation results