AnIma / Ocelot f_1
Update @ 2025.08.04: First release of malpyung_korean_culture_qna_sota
This model card corresponds to the 10.8B Instruct version of the Yanolja EEVE model.
Resources and Technical Documentation:
Citation
@misc {ai-AnIma/malpyung_korean_culture_qna_sota,
author = { {frcp, nebchi, DaKu00, philosokey-M} },
title = { malpyung_rag },
year = 2025,
url = { https://huggingface.co/ai-AnIma/malpyung_korean_culture_qna_sota },
publisher = { Hugging Face }
}
Model Developers: frcp, nebchi, DaKu00, philosokey-M
๐ ๊ณผ์ ๊ฐ์: ๊ตญ๋ฆฝ๊ตญ์ด์ ํ๊ตญ๋ฌธํ ์ง์์๋ต ๋ํ
์ด ๊ณผ์ ๋ ํ๊ตญ ์ ํต๋ฌธํ, ์ญ์ฌ, ์ฌํ, ๊ณผํ๊ธฐ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ๋ํ ์ธ๊ณต์ง๋ฅ์ ํ๊ตญ๋ฌธํ ์ง์์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ ๋ชฉ์ ์ ๊ฐ์ง๋๋ค.
- ๋ฌธํญ ์ ํ:
์ ๋คํ: ์ ๋ต ๋ฒํธ(์ ์)๋ฅผ ์ถ๋ ฅ๋จ๋ตํ: ๋จ์ด, ๊ตฌ, ๊ธฐํธ ๋ฑ 5์ด์ ์ดํ์ ๋จ๋ต ์ถ๋ ฅ์์ ํ: 300~500์ ๋ด์ธ์ ๋ฌธ์ฅ ์์ฑ---
๐ง Model Details
ํ์ต ๋ฐฉ์: ๊ณ ํ์ง ํ๊ตญ์ด ์ธ์คํธ๋ญ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ Full fine-tuning
Alignment Tech:
- WizardLM์ Evol-Instruct ํ๋ ์์ํฌ๋ฅผ ๋์ ํ์ฌ seed data ๊ธฐ๋ฐ, Depth/Breadth๊ฐ ํ๋ถํ ๋ค์ํ ์ ํ์ instruction dataset์ ์์ฑํ์์ต๋๋ค.
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ SimHash ๊ธฐ๋ฐ ์ค๋ณต ์ ๊ฑฐ๋ฅผ ์ํํ์ฌ, ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํ๋ณดํ๊ณ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ์์ต๋๋ค.
- FineWeb ๊ธฐ๋ฐ ํ์ง ํํฐ๋ง์ ์ ์ฉํ์ฌ, ๋ ธ์ด์ฆ๊ฐ ๋ง๊ฑฐ๋ ์ ๋ณด์ฑ์ด ๋จ์ด์ง๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํจ์ผ๋ก์จ ์๋ต์ ๋ช ํ์ฑ๊ณผ ์ ๋ฐ๋๋ฅผ ๋์์ต๋๋ค.
- Curriculum Learning ์ ๋ต์ ํ์ฉํ์ฌ, ์ฌ์ด ๋ฌธ์ ๋ถํฐ ์ ์ง์ ์ผ๋ก ๋ณต์กํ ๋ฌธ์ ๋ก ํ์ต ๋์ด๋๋ฅผ ์กฐ์ ํ๋ฉฐ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
๐ ๏ธ ๋ชจ๋ธ ์ฌ์ฉ ์์
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
tokenizer = AutoTokenizer.from_pretrained("ai-AnIma/malpyung_korean_language_rag_sota")
model = AutoModelForCausalLM.from_pretrained("ai-AnIma/malpyung_korean_language_rag_sota, device_map="auto")
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=4096)
messages = [
{"role": "user", "content": "2024๋
๊ธฐ์ค ํ๊ตญ์ ์ผ๋ฐ ๊ฐ์ ์์ ํ์๊ด ๋ฐ์ ๊ธฐ๋ฅผ ์ค์นํ๊ณ ์ถ์ผ๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ๋์?"}]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, temperature=0.2)
print(outputs[0]["generated_text"][len(prompt):])
results
์ผ๋ฐ ๊ฐ์ ์์ ํ์๊ด ๋ฐ์ ๊ธฐ๋ฅผ ์ค์นํ๊ธฐ ์ํด์๋ ํ๊ตญ์๋์ง๊ณต๋จ '๊ทธ๋ฆฐํ'์์ ์๊ณต์
์ฒด๋ฅผ ์ ํํ ๋ค ์
์ฒด๊ฐ ๊ฐ์ ์ ๋ฐฉ๋ฌธํ์ฌ ์ค์น ๊ฐ๋ฅ ์ฌ๋ถ ๋ฐ ์ ์ ์ฑ์ ํ๊ฐํ๋ ๊ณผ์ ์ด ๋จผ์ ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค. ์ ์ ์ฑ ํ๊ฐ์ ํต๊ณผ๋๋ฉด ์
์ฒด๊ฐ ์ฌ์
์ ์ฒญ์๋ฅผ ๊ทธ๋ฆฐํ์ ์ ์ถํ๊ณ ๊ณต๋จ์ ๊ฒํ ๋ฅผ ๋ฐ๊ฒ ๋๋ค. ๊ณต๋จ์ ์น์ธ์ด ๋ ํ ์ ์ฒญ์๊ฐ ์์น๊ธ์ ๋ฉ๋ถํ๊ฒ ๋๋ฉฐ ๊ทธ ํ ์ค๋น๋ฅผ ์์ํ๋ค. ์ค๋น๋ ์ ์ ํ ์
์ฒด์ ์ํด ์ด๋ฃจ์ด์ง๋ค. ์ค์น๊ฐ ์๋ฃ๋๋ฉด ์ค์น ํ์ธ ์ ์ฐจ๋ฅผ ๊ฑฐ์ณ ์ ์ฒญ์์๊ฒ ๋ณด์กฐ๊ธ์ด ์ง๊ธ๋๋ค. ์ด๊ธฐ ์ค์น ๋น์ฉ์ด ๋ถ๋ด๋๋ ๊ฒฝ์ฐ ๋์ฌ ์ฌ์
์๋ฅผ ํตํด ํ์๊ด ๋ฐ์ ๊ธฐ๋ฅผ ๋์ฌํ๋ ๋ฐฉ๋ฒ๋ ์๋ค.
Evaluation Results - ๊ตญ๋ฆฝ๊ตญ์ด์ ํ๊ตญ๋ฌธํ ์ง์์๋ต ๋ํ
์ด ๋ชจ๋ธ์ ๊ตญ๋ฆฝ๊ตญ์ด์ ์ฃผ๊ด ํ๊ตญ๋ฌธํ ์ง์์๋ต ๋ํ์ ์ฐธ์ฌํ์ฌ ๋ค์๊ณผ ๊ฐ์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์์ต๋๋ค.
| ๋ชจ๋ธ๋ช | ํ๊ฐ ์ ์ | Accuracy | Exact Match | ROUGE-1 | BERTScore | BLEURT | ์ ์ถ์ผ์ |
|---|---|---|---|---|---|---|---|
| n_try01 | 79.1005 | 92.75 | 86.27 | 45.10 | 73.45 | 56.29 | 2025.07.17 15:24 |
- Downloads last month
- 12