Spaces:

ZombitX64
/

AutoGDataset

Paused

AutoGDataset / README.md

Nattapong Tapachoom

Refactor README structure for improved clarity and organization

9778bec 4 months ago

4.82 kB

A newer version of the Gradio SDK is available: 6.2.0

Upgrade

metadata

title: AutoGDataset Thai
emoji: 📚
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.44.1
app_file: app.py
pinned: false
hf_oauth: true

AutoGDataset Thai 🇹🇭

เครื่องมือสร้างชุดข้อมูล (Dataset) ภาษาไทยจากไฟล์ PDF โดยใช้ LangChain กับ Hugging Face Inference API

รองรับงานหลากหลาย: QA, RLHF, DPO, Constitutional AI, Chain of Thought, Dialogue และอื่นๆ
เน้นภาษาไทย: รองรับโมเดลภาษาไทยและ prompt ที่เหมาะสมกับบริบททางวัฒนธรรม
โมเดลที่รองรับ: OpenThaiGPT, Typhoon, WangchanBERTa และ multilingual models
ปรับแต่งได้: สามารถกำหนด prompt และพารามิเตอร์ต่างๆ ได้

pip install -r requirements.txt
python app.py

RLHF: {prompt: str, responses: [str], scores: [float], preferred_response: str}
DPO: {prompt: str, chosen: str, rejected: str, reason: str}
Instruction_Following: {instruction: str, input: str, output: str, difficulty: str}
Constitutional_AI: {problematic_prompt: str, constitutional_response: str, principle: str}
Chain_of_Thought: {problem: str, thinking_steps: [str], final_answer: str}
Dialogue: {dialogue: [{role: str, content: str}], context: str}
Thai_Culture: {question_th: str, answer_th: str, cultural_context: str}

ใช้ HF Inference API ผ่าน LangChain ไม่ต้องติดตั้ง transformers ในเครื่อง
ไฟล์ผลลัพธ์จะถูกบันทึกใน outputs/ ทั้งแบบ JSON และ JSONL
ต้องเข้าสู่ระบบ Hugging Face สำหรับ Spaces (ตั้งค่า REQUIRE_LOGIN=0 เพื่อปิดการใช้งาน)
รองรับการปรับแต่ง prompt สำหรับผลลัพธ์ที่ดีขึ้น

pip install gradio pypdf huggingface_hub langchain langchain-community pythainlp transformers torch

สำหรับการประมวลผลภาษาไทยที่ดีขึ้น แนะนำให้ติดตั้ง: