File size: 3,894 Bytes
5be6c49
214c7aa
 
5be6c49
214c7aa
 
 
 
 
 
 
 
 
 
 
e587e62
214c7aa
 
e587e62
214c7aa
 
 
 
 
 
 
 
 
 
 
 
e587e62
 
214c7aa
e587e62
214c7aa
e587e62
214c7aa
 
 
 
e587e62
214c7aa
e587e62
214c7aa
e587e62
214c7aa
 
 
 
 
 
 
e587e62
214c7aa
e587e62
 
214c7aa
e587e62
214c7aa
e587e62
214c7aa
 
 
 
e587e62
214c7aa
 
e587e62
214c7aa
e587e62
214c7aa
 
 
 
 
e587e62
214c7aa
e587e62
214c7aa
e587e62
214c7aa
e587e62
214c7aa
e587e62
214c7aa
 
 
 
e587e62
214c7aa
e587e62
214c7aa
 
e587e62
214c7aa
e587e62
214c7aa
 
 
e587e62
214c7aa
e587e62
214c7aa
e587e62
214c7aa
 
 
 
e587e62
214c7aa
e587e62
214c7aa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
---
language: "id"
license: "apache-2.0"
tags:
  - sentence-transformers
  - indonesian
  - semantic-similarity
  - stsb
  - embedding
  - fine-tuned
  - education
datasets:
  - rzkamalia/stsb-indo-mt-modified
  - quarkss/stsb-indo-mt
  - AkshitaS/semrel_2024_plus
metrics:
  - cosine-similarity
pipeline_tag: sentence-similarity
model-index:
  - name: Automatic Scoring (IndoBERT STS)
    results:
      - task:
          name: Semantic Textual Similarity
          type: sentence-similarity
        dataset:
          name: STSB Indo + SemRel 2024
          type: multiple
        metrics:
          - name: Cosine Similarity
            type: cosine-similarity
            value: Evaluated on test set (see below)
---

# Automatic Scoring for Indonesian Semantic Similarity ✨

Model ini merupakan hasil fine-tuning dari [`indobenchmark/indobert-large-p2`](https://huggingface.co/indobenchmark/indobert-large-p2) menggunakan Sentence Transformers untuk tugas **Semantic Textual Similarity** (STS) dalam bahasa Indonesia.

Model ini dilatih secara **multi-dataset** menggunakan gabungan dari:
- 🟒 `rzkamalia/stsb-indo-mt-modified`
- 🟒 `quarkss/stsb-indo-mt`
- 🟒 `AkshitaS/semrel_2024_plus` (split `ind_Latn`)

Tujuan utama dari model ini adalah untuk mendukung **penilaian otomatis jawaban siswa** atau sistem pembelajaran berbasis teks dalam bahasa Indonesia.

## 🧠 Model Details

- **Base Model**: [`indobenchmark/indobert-large-p2`](https://huggingface.co/indobenchmark/indobert-large-p2)
- **Framework**: `sentence-transformers`
- **Loss Function**: `CosineSimilarityLoss`
- **Training Epochs**: `5`
- **Batch Size**: `16`
- **Evaluation Metric**: `Cosine Similarity`
- **Total Datasets Combined**: 3 corpora (STS Indo + Semantic Relation)

## πŸ“Š Example Usage

```python
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("eugene702/Automatic-Scoring")

score = util.cos_sim(
    model.encode("Apa dampak pemanasan global?", convert_to_tensor=True),
    model.encode("Bagaimana pengaruh perubahan iklim terhadap bumi?", convert_to_tensor=True)
)

print("Similarity Score:", score.item())
```

## πŸ“ Datasets Used

| Dataset | Deskripsi |
|--------|-----------|
| [`rzkamalia/stsb-indo-mt-modified`](https://huggingface.co/datasets/rzkamalia/stsb-indo-mt-modified) | Versi modifikasi STS bahasa Indonesia |
| [`quarkss/stsb-indo-mt`](https://huggingface.co/datasets/quarkss/stsb-indo-mt) | STS benchmark bahasa Indonesia |
| [`AkshitaS/semrel_2024_plus`](https://huggingface.co/datasets/AkshitaS/semrel_2024_plus) | Dataset Semantic Relation multilingual split `ind_Latn` |

## πŸ“ˆ Evaluation

Evaluasi dilakukan pada data `test` dari ketiga dataset yang digabung. Penilaian dilakukan menggunakan `EmbeddingSimilarityEvaluator` dari `sentence-transformers`.

**Metric utama**: *Cosine Similarity* terhadap pasangan kalimat dalam bahasa Indonesia.

## πŸ’‘ Use Cases

- Penilaian otomatis jawaban siswa
- Deteksi parafrase dalam Bahasa Indonesia
- Penilaian kesamaan kalimat untuk e-learning
- Analisis pertanyaan dan jawaban semantik

## πŸ›  Training Code

Model dilatih menggunakan `sentence-transformers` di platform Kaggle.
Kode pelatihan tersedia secara privat namun dapat diminta melalui email.

## πŸ“Œ Model Availability

Model tersedia di:
- Hugging Face: [eugene702/Automatic-Scoring](https://huggingface.co/eugene702/Automatic-Scoring)
- Kaggle Model Hub: [Automatic Scoring](https://www.kaggle.com/models/eugene702/automatic-scoring)

## πŸ“¬ Contact

Untuk pertanyaan atau kolaborasi:

**Eugene Feilian Putra Rangga**  
πŸ“§ [email protected]  
πŸ”— [Hugging Face Profile](https://huggingface.co/eugene702)
πŸ”— [GitHub](https://github.com/Eugene702)

---

> _Model ini merupakan bagian dari eksperimen untuk membangun sistem penilaian otomatis berbasis semantic similarity pada teks Bahasa Indonesia._