numind
/

NuNER-multilingual-v0.1

Token Classification

feature-extraction

entity-recognition

foundation-model

Multilingual Bert

Model card Files Files and versions

Serega6678 commited on Sep 18, 2023

Commit

21a334b

·

1 Parent(s): e1a79ba

Update README.md

Files changed (1) hide show

README.md +39 -3

README.md CHANGED Viewed

@@ -15,7 +15,43 @@ inference: false
 tags:
 - mBERT
 - BERT
-- feature extraction
-- entity recognition
 - generic
----

 tags:
 - mBERT
 - BERT
 - generic
+- entity-recognition
+---
+## Model
+The [multilingual BERT](https://huggingface.co/bert-base-multilingual-cased) finetunned on an artificially annotated multilingual subset of [Oscar dataset](https://huggingface.co/datasets/oscar-corpus/OSCAR-2201). This model provides domain & language independent embedding for Entity Recognition Task. Embeddings can be used out of the box or fine-tuned on specific datasets.
+## Usage
+```python
+import torch
+import transformers
+model = transformers.AutoModel.from_pretrained(
+    'numind/entity-recognition-multilingual-general-sota-v1',
+    output_hidden_states=True,
+)
+tokenizer = transformers.AutoTokenizer.from_pretrained(
+    'numind/entity-recognition-multilingual-general-sota-v1',
+)
+text = [
+    "NuMind is an AI company based in Paris and USA.",
+    "NuMind est une entreprise d'IA basée à Paris et aux États-Unis.",
+    "Check other awesome models from NuMind on https://huggingface.co/numind"
+]
+encoded_input = tokenizer(text, return_tensors='pt', padding=True, truncation=True)
+output = model(**encoded_input)
+# for better quality
+emb = torch.cat(
+    (output.hidden_states[-1], output.hidden_states[-7]),
+    dim=2
+)
+# for better speed
+# emb = output.hidden_states[-1]
+```