|
|
--- |
|
|
datasets: |
|
|
- Porameht/processed-voice-th-169k |
|
|
language: |
|
|
- th |
|
|
pipeline_tag: text-to-speech |
|
|
base_model: |
|
|
- SWivid/F5-TTS |
|
|
license: cc-by-4.0 |
|
|
--- |
|
|
|
|
|
#### F5-TTS-ไทย |
|
|
|
|
|
โมเดล Text To Speech ภาษาไทย |
|
|
|
|
|
โมเดลหลัก : [SWivid/F5-TTS](https://huggingface.co/SWivid/F5-TTS) |
|
|
|
|
|
Github : https://github.com/SWivid/F5-TTS |
|
|
|
|
|
| ชุดข้อมูล | ระยะเวลา(ชั่วโมง) |
|
|
|--------|--------| |
|
|
| [Common Voice (Porameht/processed-voice-th-169k)](https://huggingface.co/datasets/Porameht/processed-voice-th-169k) | ~160 |
|
|
| [Porjai Dataset](CMKL/Porjai-Thai-voice-dataset-central) | ~300 |
|
|
| Common Voice-EN(อังกฤษ) | ~40 |
|
|
|
|
|
- ขนาดโมเดลล่าสุด |
|
|
- 1,000,000 Steps |
|
|
- ภาษาที่รองรับ: ไทย และ อังกฤษ. |
|
|
|
|
|
- การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง |
|
|
- เสียงตัวอย่างควรมีความยาว 2-8 วินาที |
|
|
- สามารถลองปรับลดความเร็วเสียงในการสร้าง เช่น 0.8 หรือ กำหนด seed ใหม่, เพื่อให้ได้เสียงที่ถูกต้อง. |
|
|
- เสียงและข้อความต้นฉบับควรเป็นภาษาไทย. |
|
|
- ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง. |
|
|
- ถ้าเสียงต้นฉบับมีความเร็วในการอ่านมาก ควรลดความเร็ว เหลือ 0.7-0.8 |
|
|
|
|
|
### การใช้งาน |
|
|
|
|
|
[Github](https://github.com/VYNCX/F5-TTS-THAI) |
|
|
|
|
|
ติดตั้ง |
|
|
|
|
|
```sh |
|
|
pip install f5-tts-th |
|
|
|
|
|
#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU |
|
|
pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124 |
|
|
``` |
|
|
|
|
|
ใช้งาน |
|
|
|
|
|
```sh |
|
|
from f5_tts_th.tts import TTS |
|
|
import soundfile as sf |
|
|
|
|
|
tts = TTS(model="v1") |
|
|
|
|
|
wav = tts.infer( |
|
|
ref_audio="YOUR_AUDIO_PATH", |
|
|
ref_text="ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.", |
|
|
gen_text="สวัสดีครับ นี่คือเสียงพูดภาษาไทย.", |
|
|
step=32, |
|
|
cfg=2.0, |
|
|
speed=1.0 |
|
|
) |
|
|
|
|
|
sf.write("test.wav", wav, 24000) |
|
|
``` |
|
|
|
|
|
### ตัวอย่างเสียง |
|
|
- เสียงต้นแบบ |
|
|
<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/ref_audio.wav" type="audio/wav"></audio> |
|
|
- ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย |
|
|
- เสียงที่สร้างขึ้น |
|
|
<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/tts_gen.wav" type="audio/wav"></audio> |
|
|
- Seed : 4213936761049775187 |