Merge branch 'main' of https://huggingface.co/krotima1/AlignScoreCS

Files changed (5) hide show

.gitattributes +1 -0
README.md +75 -1
special_tokens_map.json +15 -0
tokenizer.json +3 -0
tokenizer_config.json +54 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

	@@ -1 +1,75 @@
1	- ~~hello~~

+---
+language:
+- en
+- cs
+license: cc-by-4.0
+metrics:
+- bleurt
+- bleu
+- bertscore
+pipeline_tag: text-classification
+---
+# AlignScoreCS
+MultiTask multilingual model for assessing facticity in various NLU tasks in Czech and English language. We followed the initial paper AlignScore https://arxiv.org/abs/2305.16739.
+We trained a model using a shared architecture of checkpoint xlm-roberta-large https://huggingface.co/FacebookAI/xlm-roberta-large with three linear layers for regression,
+binary classification and ternary classification.
+# Usage
+```python
+  # Assuming you copied the attached Files_and_versions/AlignScore.py file for ease of use in transformers.
+  from AlignScoreCS import AlignScoreCS
+  alignScoreCS = AlignScoreCS.from_pretrained("krotima1/AlignScoreCS")
+  # put the model to cuda to accelerate
+  print(alignScoreCS.score(context="This is context", claim="This is claim"))
+```
+# Results
+# Training datasets
+The following table shows datasets that has been utilized for training the model. We translated these english datasets to Czech using seamLessM4t.
+| NLP Task              | Dataset           | Training Task | Context (n words) | Claim (n words) | Sample Count |
+|-----------------------|-------------------|---------------|-------------------|-----------------|--------------|
+| NLI                   | SNLI              | 3-way         | 10                | 13              | Cs: 500k     |
+|                       |                   |               |                   |                 | En: 550k     |
+|                       | MultiNLI          | 3-way         | 16                | 20              | Cs: 393k     |
+|                       |                   |               |                   |                 | En: 393k     |
+|                       | Adversarial NLI   | 3-way         | 48                | 54              | Cs: 163k     |
+|                       |                   |               |                   |                 | En: 163k     |
+|                       | DocNLI            | 2-way         | 97                | 285             | Cs: 200k     |
+|                       |                   |               |                   |                 | En: 942k     |
+| Fact Verification     | NLI-style FEVER   | 3-way         | 48                | 50              | Cs: 208k     |
+|                       |                   |               |                   |                 | En: 208k     |
+|                       | Vitamin C         | 3-way         | 23                | 25              | Cs: 371k     |
+|                       |                   |               |                   |                 | En: 371k     |
+| Paraphrase            | QQP               | 2-way         | 9                 | 11              | Cs: 162k     |
+|                       |                   |               |                   |                 | En: 364k     |
+|                       | PAWS              | 2-way         | -                 | 18              | Cs: -        |
+|                       |                   |               |                   |                 | En: 707k     |
+|                       | PAWS labeled      | 2-way         | 18                | -               | Cs: 49k      |
+|                       |                   |               |                   |                 | En: -        |
+|                       | PAWS unlabeled    | 2-way         | 18                | -               | Cs: 487k     |
+|                       |                   |               |                   |                 | En: -        |
+| STS                   | SICK              | reg           | -                 | 10              | Cs: -        |
+|                       |                   |               |                   |                 | En: 4k       |
+|                       | STS Benchmark     | reg           | -                 | 10              | Cs: -        |
+|                       |                   |               |                   |                 | En: 6k       |
+|                       | Free-N1           | reg           | 18                | -               | Cs: 20k      |
+|                       |                   |               |                   |                 | En: -        |
+| QA                    | SQuAD v2          | 2-way         | 105               | 119             | Cs: 130k     |
+|                       |                   |               |                   |                 | En: 130k     |
+|                       | RACE              | 2-way         | 266               | 273             | Cs: 200k     |
+|                       |                   |               |                   |                 | En: 351k     |
+| Information Retrieval| MS MARCO          | 2-way         | 49                | 56              | Cs: 200k     |
+|                       |                   |               |                   |                 | En: 5M       |
+| Summarization         | WikiHow           | 2-way         | 434               | 508             | Cs: 157k     |
+|                       |                   |               |                   |                 | En: 157k     |
+|                       | SumAug            | 2-way         | -                 | -               | Cs: -        |
+|                       |                   |               |                   |                 | En: -        |

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f59925fcb90c92b894cb93e51bb9b4a6105c5c249fe54ce1c704420ac39b81af
+size 17082756

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}