Spaces:
Paused
Paused
A newer version of the Gradio SDK is available:
6.2.0
metadata
title: AutoGDataset Thai
emoji: 📚
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.44.1
app_file: app.py
pinned: false
hf_oauth: true
AutoGDataset Thai 🇹🇭
เครื่องมือสร้างชุดข้อมูล (Dataset) ภาษาไทยจากไฟล์ PDF โดยใช้ LangChain กับ Hugging Face Inference APIset Thai emoji: 📚 colorFrom: blue colorTo: green sdk: gradio sdk_version: 5.44.1 app_file: app.py pinned: false hf_oauth: true ---AutoGDataset Thai emoji: �🇭 colorFrom: blue colorTo: green sdk: gradio sdk_version: 5.44.1 app_file: app.py pinned: false hf_oauth: true
AutoGDataset Thai 🇹🇭
เครื่องมือสร้างชุดข้อมูล (Dataset) ภาษาไทยจากไฟล์ PDF โดยใช้ LangChain กับ Hugging Face Inference API
คุณสมบัติเด่น ✨
- รองรับงานหลากหลาย: QA, RLHF, DPO, Constitutional AI, Chain of Thought, Dialogue และอื่นๆ
- เน้นภาษาไทย: รองรับโมเดลภาษาไทยและ prompt ที่เหมาะสมกับบริบททางวัฒนธรรม
- โมเดลที่รองรับ: OpenThaiGPT, Typhoon, WangchanBERTa และ multilingual models
- ปรับแต่งได้: สามารถกำหนด prompt และพารามิเตอร์ต่างๆ ได้
โมเดลที่แนะนำ 🤖
โมเดลภาษาไทย
openthaigpt/openthaigpt-1.0.0-alpha-7b-chatscb10x/llama-3-typhoon-v1.5-8b-instructairesearch/wangchanberta-base-att-spm-uncased
โมเดล Multilingual
google/mt5-largemicrosoft/mdeberta-v3-basefacebook/xglm-7.5B
การใช้งาน 🚀
รันในเครื่อง
pip install -r requirements.txt
python app.py
บน Hugging Face Spaces
- เพิ่ม secret
HF_TOKENหากจำเป็น - อัปโหลดไฟล์ PDF
- เลือกประเภทงานและโมเดล
- คลิกสร้างชุดข้อมูล
ประเภทงานที่รองรับ 📋
งานพื้นฐาน
- QA: คำถาม-คำตอบ
{question: str, answer: str} - Summarization: การสรุป
{summary: str} - Keywords: คำสำคัญ
{keyword: str} - NER: การจดจำเอนทิตี
{text: str, label: str, start: int, end: int} - Classification: การจำแนกประเภท
{labels: [str], rationale: str} - MCQ: คำถามแบบเลือกตอบ
{question: str, options: [str], answer_index: int} - True/False: จริง/เท็จ
{statement: str, answer: bool, explanation: str} - Translation: การแปล
{source: str, target: str}
งานขั้นสูงสำหรับ AI Training
- RLHF:
{prompt: str, responses: [str], scores: [float], preferred_response: str} - DPO:
{prompt: str, chosen: str, rejected: str, reason: str} - Instruction_Following:
{instruction: str, input: str, output: str, difficulty: str} - Constitutional_AI:
{problematic_prompt: str, constitutional_response: str, principle: str} - Chain_of_Thought:
{problem: str, thinking_steps: [str], final_answer: str} - Dialogue:
{dialogue: [{role: str, content: str}], context: str} - Thai_Culture:
{question_th: str, answer_th: str, cultural_context: str}
หมายเหตุสำคัญ 📝
- ใช้ HF Inference API ผ่าน LangChain ไม่ต้องติดตั้ง
transformersในเครื่อง - ไฟล์ผลลัพธ์จะถูกบันทึกใน
outputs/ทั้งแบบ JSON และ JSONL - ต้องเข้าสู่ระบบ Hugging Face สำหรับ Spaces (ตั้งค่า
REQUIRE_LOGIN=0เพื่อปิดการใช้งาน) - รองรับการปรับแต่ง prompt สำหรับผลลัพธ์ที่ดีขึ้น
การติดตั้ง Dependencies 📦
pip install gradio pypdf huggingface_hub langchain langchain-community pythainlp transformers torch
สำหรับการประมวลผลภาษาไทยที่ดีขึ้น แนะนำให้ติดตั้ง:
pythainlp: สำหรับการประมวลผลภาษาไทยthai-word-segmentation: สำหรับการตัดคำภาษาไทย