File size: 3,894 Bytes
5be6c49 214c7aa 5be6c49 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa e587e62 214c7aa |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 |
---
language: "id"
license: "apache-2.0"
tags:
- sentence-transformers
- indonesian
- semantic-similarity
- stsb
- embedding
- fine-tuned
- education
datasets:
- rzkamalia/stsb-indo-mt-modified
- quarkss/stsb-indo-mt
- AkshitaS/semrel_2024_plus
metrics:
- cosine-similarity
pipeline_tag: sentence-similarity
model-index:
- name: Automatic Scoring (IndoBERT STS)
results:
- task:
name: Semantic Textual Similarity
type: sentence-similarity
dataset:
name: STSB Indo + SemRel 2024
type: multiple
metrics:
- name: Cosine Similarity
type: cosine-similarity
value: Evaluated on test set (see below)
---
# Automatic Scoring for Indonesian Semantic Similarity β¨
Model ini merupakan hasil fine-tuning dari [`indobenchmark/indobert-large-p2`](https://huggingface.co/indobenchmark/indobert-large-p2) menggunakan Sentence Transformers untuk tugas **Semantic Textual Similarity** (STS) dalam bahasa Indonesia.
Model ini dilatih secara **multi-dataset** menggunakan gabungan dari:
- π’ `rzkamalia/stsb-indo-mt-modified`
- π’ `quarkss/stsb-indo-mt`
- π’ `AkshitaS/semrel_2024_plus` (split `ind_Latn`)
Tujuan utama dari model ini adalah untuk mendukung **penilaian otomatis jawaban siswa** atau sistem pembelajaran berbasis teks dalam bahasa Indonesia.
## π§ Model Details
- **Base Model**: [`indobenchmark/indobert-large-p2`](https://huggingface.co/indobenchmark/indobert-large-p2)
- **Framework**: `sentence-transformers`
- **Loss Function**: `CosineSimilarityLoss`
- **Training Epochs**: `5`
- **Batch Size**: `16`
- **Evaluation Metric**: `Cosine Similarity`
- **Total Datasets Combined**: 3 corpora (STS Indo + Semantic Relation)
## π Example Usage
```python
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("eugene702/Automatic-Scoring")
score = util.cos_sim(
model.encode("Apa dampak pemanasan global?", convert_to_tensor=True),
model.encode("Bagaimana pengaruh perubahan iklim terhadap bumi?", convert_to_tensor=True)
)
print("Similarity Score:", score.item())
```
## π Datasets Used
| Dataset | Deskripsi |
|--------|-----------|
| [`rzkamalia/stsb-indo-mt-modified`](https://huggingface.co/datasets/rzkamalia/stsb-indo-mt-modified) | Versi modifikasi STS bahasa Indonesia |
| [`quarkss/stsb-indo-mt`](https://huggingface.co/datasets/quarkss/stsb-indo-mt) | STS benchmark bahasa Indonesia |
| [`AkshitaS/semrel_2024_plus`](https://huggingface.co/datasets/AkshitaS/semrel_2024_plus) | Dataset Semantic Relation multilingual split `ind_Latn` |
## π Evaluation
Evaluasi dilakukan pada data `test` dari ketiga dataset yang digabung. Penilaian dilakukan menggunakan `EmbeddingSimilarityEvaluator` dari `sentence-transformers`.
**Metric utama**: *Cosine Similarity* terhadap pasangan kalimat dalam bahasa Indonesia.
## π‘ Use Cases
- Penilaian otomatis jawaban siswa
- Deteksi parafrase dalam Bahasa Indonesia
- Penilaian kesamaan kalimat untuk e-learning
- Analisis pertanyaan dan jawaban semantik
## π Training Code
Model dilatih menggunakan `sentence-transformers` di platform Kaggle.
Kode pelatihan tersedia secara privat namun dapat diminta melalui email.
## π Model Availability
Model tersedia di:
- Hugging Face: [eugene702/Automatic-Scoring](https://huggingface.co/eugene702/Automatic-Scoring)
- Kaggle Model Hub: [Automatic Scoring](https://www.kaggle.com/models/eugene702/automatic-scoring)
## π¬ Contact
Untuk pertanyaan atau kolaborasi:
**Eugene Feilian Putra Rangga**
π§ [email protected]
π [Hugging Face Profile](https://huggingface.co/eugene702)
π [GitHub](https://github.com/Eugene702)
---
> _Model ini merupakan bagian dari eksperimen untuk membangun sistem penilaian otomatis berbasis semantic similarity pada teks Bahasa Indonesia._ |