AnIma / Ocelot f_1

Update @ 2025.08.04: First release of malpyung_korean_culture_qna_sota

This model card corresponds to the 10.8B Instruct version of the Yanolja EEVE model.

Resources and Technical Documentation:

Yanolja EEVE

Citation

@misc {ai-AnIma/malpyung_korean_culture_qna_sota,
    author       = { {frcp, nebchi, DaKu00, philosokey-M} },
    title        = { malpyung_rag },
    year         = 2025,
    url          = { https://huggingface.co/ai-AnIma/malpyung_korean_culture_qna_sota },
    publisher    = { Hugging Face }
}

Model Developers: frcp, nebchi, DaKu00, philosokey-M

📝 과제 개요: 국립국어원 한국문화 질의응답 대회

이 과제는 한국 전통문화, 역사, 사회, 과학기술 등 다양한 분야에 대한 인공지능의 한국문화 지식을 종합적으로 평가하기 위한 목적을 가집니다.

문항 유형:
- 선다형: 정답 번호(정수)를 출력
- 단답형: 단어, 구, 기호 등 5어절 이하의 단답 출력
- 서술형: 300~500자 내외의 문장 생성---

🧠 Model Details

학습 방식: 고품질 한국어 인스트럭션 데이터셋을 활용한 Full fine-tuning
Alignment Tech:
- WizardLM의 Evol-Instruct 프레임워크를 도입하여 seed data 기반, Depth/Breadth가 풍부한 다양한 유형의 instruction dataset을 생성하였습니다.
- 데이터 전처리 단계에서 SimHash 기반 중복 제거를 수행하여, 학습 데이터의 다양성을 확보하고 과적합을 방지하였습니다.
- FineWeb 기반 품질 필터링을 적용하여, 노이즈가 많거나 정보성이 떨어지는 데이터를 제거함으로써 응답의 명확성과 정밀도를 높였습니다.
- Curriculum Learning 전략을 활용하여, 쉬운 문제부터 점진적으로 복잡한 문제로 학습 난이도를 조절하며 모델의 일반화 성능을 향상시켰습니다.

🛠️ 모델 사용 예시

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ai-AnIma/malpyung_korean_language_rag_sota")
model = AutoModelForCausalLM.from_pretrained("ai-AnIma/malpyung_korean_language_rag_sota, device_map="auto")

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=4096) 

messages = [
    {"role": "user", "content": "2024년 기준 한국의 일반 가정에서 태양광 발전기를 설치하고 싶으면 어떻게 해야 하나요?"}]

prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

outputs = pipe(prompt, temperature=0.2)
print(outputs[0]["generated_text"][len(prompt):])

results

일반 가정에서 태양광 발전기를 설치하기 위해서는 한국에너지공단 '그린홈'에서 시공업체를 선택한 뒤 업체가 가정을 방문하여 설치 가능 여부 및 적절성을 평가하는 과정이 먼저 이루어져야 한다. 적절성 평가에 통과되면 업체가 사업신청서를 그린홈에 제출하고 공단의 검토를 받게 된다. 공단의 승인이 난 후 신청자가 예치금을 납부하게 되며 그 후 설비를 시작한다. 설비는 선정한 업체에 의해 이루어진다. 설치가 완료되면 설치 확인 절차를 거쳐 신청자에게 보조금이 지급된다. 초기 설치 비용이 부담되는 경우 대여 사업자를 통해 태양광 발전기를 대여하는 방법도 있다.

Evaluation Results - 국립국어원 한국문화 질의응답 대회

이 모델은 국립국어원 주관 한국문화 질의응답 대회에 참여하여 다음과 같은 성능을 기록하였습니다.

모델명	평가 점수	Accuracy	Exact Match	ROUGE-1	BERTScore	BLEURT	제출일시
n_try01	79.1005	92.75	86.27	45.10	73.45	56.29	2025.07.17 15:24

Downloads last month: 12

Safetensors

Model size

11B params

Tensor type

BF16